Multikollinearität
Was ist Multikollinearität, wie erkennst du sie und warum stellt sie ein Problem dar? Die Antworten auf genau diese Fragen findest du in diesem Beitrag!
Du willst die Multikollinearität noch schneller verstehen? In unserem Video haben wir alles Wichtige zu diesem Thema für dich verständlich zusammengefasst.
Inhaltsübersicht
Multikollinearität einfach erklärt
Multikollinearität (engl. Multicollinearity) liegt vor, wenn mehrere Prädiktoren in einer Regressionsanalyse stark miteinander korrelieren. Man betrachtet bei der Multikollinearität also nicht die Korrelation der Prädiktoren mit dem Kriterium , sondern die Korrelationen der verschiedenen Prädiktoren untereinander. Ist dese Korrelation hoch, dann liegt Multikollinearität vor.
Multikollinearität und Regression
Multikollinearität ist ein Problem, denn durch starke Interkorrelationen der Prädiktoren wird die Schätzung der Regressionskoeffizienten unsicherer. Das mindert die Aussagekraft deiner Ergebnisse. Folglich musst du vor einer Regressionsanalyse stets überprüfen, ob Multikollinearität vorliegt. Dafür betrachtest du den Toleranzwert eines Prädiktors oder seine VIF-Statistik (kurz für „variance influence factor“). Toleranzwerte sollten dabei möglichst groß und VIF-Werte möglichst klein sein. Die beiden Statistiken sagen jedoch das gleiche aus. Es reicht also, wenn du einen der beiden Werte interpretierst.
Dass keine Multikollinearität vorliegen darf ist eine wichtige Voraussetzung für die Regressionsanalyse, die du stets prüfen musst. Daneben gibt es noch weitere Annahmen, die erfüllt sein müssen, damit du die Regressionsanalyse sinnvoll interpretieren kannst. Dazu gehört etwa der lineare Zusammenhang der Variablen, die Unabhängigkeit der Residuen und Homoskedastizität .
Was ist Multikollinearität?
Multikollinearität beschreibt, dass ein Prädiktor sehr stark mit anderen Prädiktoren in einer Regressionsanalyse korreliert. In anderen Worten bringt dieser Prädiktor folglich wenig neue Informationen in die Regression ein. Stattdessen ist ein großer Anteil der Informationen des Prädiktors bereits in den anderen Prädiktoren enthalten. Für die Berechnung der Multikollinearität betrachtest du deshalb, wie gut sich ein Prädiktor durch die anderen Prädiktoren der Regression vorhersagen lässt.
Stell‘ dir etwa vor, du möchtest das Kriterium „Lebenszufriedenheit einer Person“ vorhersagen. Dafür betrachtest du die Prädiktoren „Einkommen“, „Anzahl der FreundInnen“ und „Besuchte Partys pro Monat“ . Nun möchtest du die Multikollinearität untersuchen. Dafür lässt du das Kriterium „Lebenszufriedenheit“ erstmal außen vor und betrachtest ausschließlich die drei Prädiktoren.
Anschließend untersuchst du, wie gut du einen beliebigen Prädiktoren mit Hilfe der anderen Prädiktoren vorhersagen kannst. Das bedeutet, für einen Moment wird einer der Prädiktoren selbst zum Kriterium. Auf unser Beispiel bezogen berechnest du also etwa, wie gut du die Anzahl der besuchten Partys mit Hilfe des Einkommens und der Anzahl der Freunde vorhersagen kannst. Je nach dem, wie gut du den betrachteten Prädiktor mit den verbleibenden Prädiktoren vorhersagen konntest, desto ähnlicher oder unähnlicher sind sich die Prädiktoren.
In unserem Beispiel könnte es gut sein, dass die „Anzahl der besuchten Partys“ stark mit der „Anzahl der Freunde“ korreliert. Schließlich hat eine Person mit mehr Freunden tendenziell auch mehr Möglichkeiten auf Partys eingeladen zu werden. Stellst du eine hohe Korrelation zwischen diesen Prädiktoren fest, spricht man von Multikollinearität.
Warum ist Multikollinearität ein Problem?
Eine hohe Multikollinearität ist ein Problem für deine Regressionsanalyse. Das liegt daran, dass Prädiktoren, die stark miteinander korrelieren, teilweise die gleichen Varianzanteile des Kriteriums aufklären. Um diese aufgeklärten Anteile nicht doppelt zu gewichten, wird der Anteil aufgeklärter Varianz bei der Berechnung der Regressionskoeffizienten zwischen den beteiligten Prädiktoren aufgeteilt. Allerdings ist dabei nicht eindeutig, welcher Prädiktor nun wie stark gewichtet werden sollte. In der Folge wird die Schätzung der Regressionskoeffizienten zunehmend unsicherer, je mehr Varianz des Kriteriums sich die Prädiktoren „teilen“. Das führt dazu, dass deine Vorhersage der Kriteriumswerte bei Multikollinearität weniger verlässlich wird.
Kannst du ein Prädiktor perfekt durch die anderen Prädiktoren vorhersagen, spricht man von „perfekter Multikollinearität“. In diesem Fall bringt der Prädiktor gar keine neue Information ein, die nicht schon durch einen anderen Prädiktor vorhanden ist. Perfekte Multikollinearität führt in der Folge dazu, dass die Regressionsgewichte gar nicht mehr geschätzt werden können und du die Regressionsanalyse nicht mehr durchführen kannst.
Du siehst, Multikollinearität ist ein Problem für die Regressionsanalyse. Deshalb musst du bevor du eine Regression durchführst, stets überprüfen, ob Multikollinearität bei deinen Variablen vorliegt.
Woran erkenne ich Multikollinearität?
Es gibt verschiedene Statistiken, an denen du ablesen kannst, ob bei einem Prädiktor Multikollinearität vorliegt. Zum Einen gibt es die sogenannten Toleranzwerte. Sie geben an, welcher Anteil der Varianz eines Prädiktors nicht aufgeklärt werden kann, wenn du diesen Prädiktor mit Hilfe aller anderen Prädiktoren vorhersagst. ist hierbei das Bestimmtheitsmaß der Vorhersage des Prädiktors mit allen anderen Prädiktoren. Ziehst du das Bestimmtheitsmaß von 1 ab, erhältst du den Anteil der Varianz, der nicht durch die Prädiktoren aufgeklärt werden konnte. Je näher der Toleranzwert bei 1 liegt, desto unabhängiger ist der Prädiktor von den anderen Prädiktoren.
Zum anderen gibt es den VIF-Wert („variance influence factor“). Du berechnest ihn, indem du den Kehrwert des Toleranzwerts bildest.
Der Toleranzwert und der VIF-Wert unterscheiden sich in ihrer Darstellungsform, sagen jedoch das gleiche aus. Folglich ist es ausreichend, wenn du entweder den Toleranzwert oder den VIF-Wert interpretierst. Sowohl den Toleranzwert als auch die VIF-Statistik kannst du dir am einfachsten von einem Statistikprogramm mit ausgeben lassen.
Wie groß oder klein der Toleranzwert und die VIF-Statistik jeweils sein sollten, lässt sich nicht pauschal beantworten. Dies hängt immer auch davon ab, wie viele Prädiktoren du in deiner Regressionsanalyse betrachtest. Generell gilt: Toleranz-Werte sollten möglichst nahe 1 und VIF-Werte möglichst klein sein.
Als Daumenregel kannst du dir merken, dass Tolerance-Werte nicht kleiner als und VIF-Werte nicht größer als sein sollten.
Noch mehr Regressionsanalyse?
Möchtest du noch mehr über die Regressionsanalyse und ihre Eigenschaften erfahren? Wir haben eine ganze Reihe weiterer Beiträge zu diesem Thema für dich, schau doch mal vorbei!