Hauptkomponentenanalyse
In diesem Artikel erklären wir dir, was eine Hauptkomponentenanalyse ist und wie sie sich von einer Faktorenanalyse unterscheidet!
Du lernst lieber audiovisuell? Dann ist unser Video die perfekte Lösung für dich!
Inhaltsübersicht
Hauptkomponentenanalyse einfach erklärt
Die Hauptkomponentenanalyse (engl. Prinicipal Component Analysis, „PCA“) ist ein statistisches Verfahren, mit dem du viele Variablen zu wenigen Hauptkomponenten zusammenfassen kannst. Dein Ziel ist es dabei, die Information aus vielen einzelnen Variablen in wenige Hauptkomponenten zu bündeln, um deine Daten so übersichtlicher zu machen.
Die Hauptkomponenten, die du gefunden hast, sind selbst wieder Variablen, mit denen du weiter rechnen kannst. Diese künstlich erzeugten Variablen sind voneinander stochastisch unabhängig, was für einige statistische Verfahren von Vorteil sein kann.
Die Hauptkomponentenanalyse ist eine Subkategorie der Faktorenanalyse . Das Hauptziel der Hauptkomponentenanalyse liegt dabei darin, die Information der Variablen möglichst effizient zusammenzufassen und deine Daten zu reduzieren. Bei anderen Varianten der Faktorenanalyse versuchst du zwar ebenfalls deine Variablen zusammenzufassen, allerdings interessiert dich hier mehr, was inhaltlich hinter deinen Variablen steckt. Während es bei der Hauptkomponentenanalyse also hauptsächlich darum geht, deine Daten übersichtlicher zu machen, versuchst du bei anderen Formen latente Konstrukte hinter den Variablen aufzudecken.
Grundidee
Bei der Hauptkomponentenanalyse sollen viele Variablen zu wenigen Hauptkomponenten zusammengefasst werden. Die Idee dahinter ist, dass deine Variablen teilweise die gleichen Dinge messen. Folglich benötigst du eigentlich nicht alle Variablen, um die in ihnen enthaltene Information abzubilden. Stattdessen kannst du die Variablen zu wenigen Hauptkomponenten zusammenfassen, in denen ein möglichst großer Anteil der Informationen der Ausgangsvariablen gebündelt wird.
Um die Hauptkomponenten zu finden, betrachtest du, was deine Variablen gemeinsam haben. Jede „Art“ der Gemeinsamkeit stellst du anschließend als eine Hauptkomponente dar. Mathematisch geschieht dies mit Hilfe der Korrelationen zwischen deinen Variablen. Du versuchst dabei, einen möglichst großen Anteil der Informationen deiner Variablen in den Hauptkomponenten zu erhalten. Gleichzeitig ist dein Ziel, die Anzahl der Variablen durch die Hauptkomponenten möglichst stark zu reduzieren. Diese beiden Ziele stehen im Widerspruch zueinander. Hier musst du stets abwägen, wie viele Hauptkomponenten tatsächlich sinnvoll sind.
Die eigentliche Durchführung einer Hauptkomponentenanalyse übernimmt in der Regel ein Statistikprogramm für dich. Trotzdem ist es wichtig, dass du die Theorie hinter dem Verfahren kennst, so dass du deine Ergebnisse richtig interpretieren kannst.
Beispiel
Die Grundidee der Hauptkomponentenanalyse kennst du jetzt! Da das Thema jedoch sehr abstrakt ist, sehen wir uns das Ganze nochmal an einem anschaulichen Beispiel an:
Stell dir vor, du hast zehn Tüten mit Konfetti in verschiedenen Farben. In jeder Tüte ist sowohl rotes, gelbes als auch blaues Konfetti enthalten. Diese zehn Konfettitüten bilden die Ausgangsvariablen, mit denen du eine Hauptkomponentenanalyse durchführen möchtest. Das verschiedenfarbige Konfetti ist die Information, die jeweils in einer Variablen enthalten ist.
Nun ist es so, dass die verschiedenen Konfettitüten etwas gemeinsam haben, nämlich, dass sie alle sowohl mit rotem, gelbem und auch mit blauem Konfetti befüllt sind. Anders ausgedrückt enthalten deine zehn Variablen also alle ähnliche Informationen.
Wenn du die Information aus den Konfettitüten kompakter darstellen möchtest, brauchst du folglich nicht alle zehn Konfettibeutel. Stattdessen musst du lediglich wissen, welche Konfettifarben in den Beuteln zu welchem Anteil vertreten waren. Damit hast du auch schon deine Hauptkomponenten, mit denen du deine Variablen zusammenfassen kannst: Aus den zehn bunt gemischten Konfettibeuteln wurden drei Hauptkomponenten, nämlich die Konfettifarben rot, gelb und blau.
Hauptkomponentenanalyse versus Faktorenanalyse
Vielleicht hast du neben der Hauptkomponentenanalyse bereits einmal den Begriff Faktorenanalyse gehört und fragst dich, was der Unterschied ist. Einfach gesagt ist die Hauptkomponentenanalyse eine Variante der Faktorenanalyse.
Der Hauptunterschied zwischen der Hauptkomponentenanalyse und anderen Formen der Faktorenanalyse ist ihr Anwendungszweck. Bei der Hauptkomponentenanalyse ist dein Ziel, die Variablen möglichst stark zusammenzufassen und trotzdem die Information der Variablen noch so gut wie möglich zu erhalten. Die Idee hinter der Hauptkomponentenanalyse ist also recht pragmatisch: Du möchtest die Anzahl der Variablen reduzieren, um anschließend einfacher mit ihnen rechnen zu können.
Andere Formen der Faktorenanalyse sind hier anders ausgerichtet: Sie versuchen herauszufinden, welche Konstrukte hinter den Variablen liegen. Es geht also mehr darum, die Gemeinsamkeiten der Variablen inhaltlich zu interpretieren und zu analysieren. Vorstellen kannst du dir das anhand eines Fragebogens mit mehreren Items (deinen Variablen). Unterziehst du die Items einer Faktorenanalyse, kannst du näher untersuchen, welche Persönlichkeitseigenschaften deine Items denn nun tatsächlich gemessen haben.
Kommunalitäten
Ein weiterer wichtiger Unterschied zwischen der Hauptkomponentenanalyse und anderen Formen der Faktorenanalyse liegt in den Annahmen über die Kommunalitäten.
Die Kommunalität einer Variable beschreibt, wie gut die Information einer Variable in den Faktoren beziehungsweise in den Hauptkomponenten erhalten geblieben ist. Je nach dem, wie gut deine Faktoren deine Variablen also zusammenfassen können, liegt die Kommunalität niedriger oder höher. Wird die Information der Variable durch die Faktoren perfekt abgebildet, dann liegt die Kommunalität bei 1.
Um deine Faktoren bzw. Hauptkomponenten finden zu können, musst die Kommunalitäten deiner Variablen kennen. Gleichzeitig erfährst du die Kommunalitäten jedoch erst, wenn du die Faktoren bereits vorliegen hast. Um dieses sogenannte Kommunalitätenproblem zu lösen, geht man bei der Faktorenanalyse und der Hauptkomponentenanalyse unterschiedlich vor.
Kommunalitäten: Hauptkomponentenanalyse
Bei der Hauptkomponentenanalyse geht man davon aus, dass die gesamte Varianz deiner Variablen gemeinsame Varianz ist. In der Folge kann die Information deiner Variablen perfekt durch die Hauptkomponenten abgebildet werden, wenn du genauso viele Hauptkomponenten wie Variablen hast. In diesem Fall ist eine Variable einfach eine Linearkombination aus mehreren Hauptkomponenten.
Durch die Annahme, dass die Varianz der Variablen perfekt durch die Hauptkomponenten abgebildet werden kann, wird die Kommunalität bei der Hauptkomponentenanalyse zunächst auf 1 gesetzt. Da du später nicht genauso viele Hauptkomponenten wie Variablen behalten wirst, wird die Kommunalität einer Variable dann geringer ausfallen. Die Annahme, dass die Kommunalitäten gleich 1 sind, ist hauptsächlich dafür wichtig, mögliche Hauptkomponenten überhaupt erst zu finden.
Kommunalitäten: Faktorenanalyse
Bei anderen Formen der Faktorenanalyse gehst du hingegen davon aus, dass jede Variable einen Varianzanteil hat, den sie ganz für sich allein hat, sogenannte „unique“ Varianz. Dadurch sinkt die Kommunalität ab und wird kleiner als 1. Da du jedoch nicht weißt, um wie viel die Kommunalität reduziert wird, musst du Schätzungen durchführen. Dafür gibt es unterschiedliche Methoden, die unterschiedlich kompliziert sind. Eine sehr einfache Methode wäre etwa die Interkorrelationen zwischen den Variablen zu betrachten oder die Kommunalität mit einer Regressionsanalyse zu schätzen.
Neben der Kommunalität gibt es bei faktorenanalytischen Verfahren noch weitere wichtige Kennzahlen. Schau dir unser Video zur Faktorenanalyse an, um alles Wichtige darüber zu erfahren!