Strukturgleichungsmodell
Du bist dir unsicher, wann und wie du ein Strukturgleichungsmodell anwenden sollst? Hier im Beitrag und im Video klären wir alle deine Fragen!
Inhaltsübersicht
Strukturgleichungsmodell — einfach erklärt
Mit einem Strukturgleichungsmodell (engl.: structural equation modeling, kurz SEM) kannst du mehrere komplexe Zusammenhänge zwischen verschiedenen Variablen gleichzeitig analysieren. Im Gegensatz zu einfacheren Modellen wie der linearen Regression kannst du beim SEM mehrere abhängige und unabhängige Variablen einbeziehen.
Strukturgleichungsmodelle helfen dir, Theorien zu testen oder zu entwickeln. Dadurch findest du heraus, ob deine Annahmen über bestimmte Zusammenhänge in der Realität auch wirklich stimmen. Zum Beispiel könntest du untersuchen, ob die Zufriedenheit am Arbeitsplatz wirklich die Produktivität steigert, und ob das vielleicht auch noch von anderen Faktoren wie dem Arbeitsklima beeinflusst wird.
Die Anwendungsmöglichkeiten sind sehr vielfältig. Du findest Strukturgleichungsmodelle z. B. in der Psychologie, der Betriebswirtschaft, der Sozialwissenschaft und in der Medizin.
In einem SEM kannst du latente Variablen integrieren. Das sind Variablen, die du nicht direkt messen kannst, wie zum Beispiel Intelligenz oder Motivation. Sie kannst du durch manifeste Variablen (Indikatoren) abbilden, die du direkt messen bzw. beobachten kannst. Dazu zählen z. B. Testergebnisse oder Selbsteinschätzungen.
Strukturgleichungsmodell — Vorgehensweise
Die Durchführung eines Strukturgleichungsmodells kann in 6 Schritten zusammengefasst werden.
-
Theoretisches Modell entwickeln
Bevor du mit der Analyse beginnst, solltest du ein theoretisches Modell entwickeln, das die Beziehungen zwischen den Variablen darstellt. Das Modell basiert oft auf bestehender Literatur oder theoretischen Überlegungen.
-
Daten sammeln
Sammle die Daten für alle manifesten und latenten Variablen, die im theoretischen Modell identifiziert wurden. Achte dabei auf die Voraussetzungen wie Stichprobengröße und Datenqualität.
-
Strukturmodell spezifizieren
Das Strukturmodell beschreibt die Beziehungen zwischen den latenten Variablen. Hier legst du die Pfade zwischen den Variablen fest.
-
Messmodell spezifizieren
Im Messmodell legst du fest, wie die latenten Variablen durch die manifesten Variablen gemessen werden.
-
Parameterschätzung
Mit Hilfe einer statistischen Software führst du die Parameterschätzung durch. Dabei wählst du eine geeignete Methode zur Schätzung der Parameter.
-
Modellgüte beurteilen
Zum Schluss ist es wichtig, die Güte des Modells zu beurteilen. Dazu verwendest du verschiedene Fit-Indizes und statistische Tests.
Strukturgleichungsmodell — Pfadanalyse
Der Ausgangspunkt für ein Strukturgleichungsmodell ist die Pfadanalyse. Dabei werden die Beziehungen zwischen den Variablen grafisch dargestellt. Das hilft dir nicht nur bei der Visualisierung, sondern auch bei der Interpretation des Modells.
Schauen wir uns das an einem Beispiel an: Stell dir vor, du willst den Einfluss von Ernährung und Bewegung auf die Gesundheit untersuchen. Deine Hypothese könnte also lauten: „Eine gesunde Ernährung und regelmäßige Bewegung verbessern die körperliche Gesundheit.“
Dafür erstellst du ein Pfaddiagramm. Das besteht in der Regel aus zwei Teilen: dem Strukturmodell und dem Messmodell.
Strukturmodell
Das Strukturmodell beschreibt die Beziehungen zwischen latenten Variablen. Du unterscheidest dabei zwei Kategorien von latenten Variablen:
- Endogene latente Variablen sind latente Variablen, die durch andere latente Variablen beeinflusst werden → „Gesundheit“ wird beeinflusst von „Ernährung“ und „Bewegung“
- Exogene latente Variablen sind latente Variablen, die nicht durch andere latente Variablen beeinflusst werden. → „Ernährung“ und „Bewegung“
Die latenten Variablen stellst du als Ellipsen dar. Sie werden durch Pfeile miteinander verbunden, wobei die Richtung der Pfeile die Richtung der Kausalität angibt. Sie zeigen also an, welche Variable eine andere kausal beeinflusst. In unserem Beispiel zeigen Pfeile von „Ernährung“ und „Bewegung“ zu „Gesundheit“. Diese Pfeile repräsentieren die direkten Effekte der exogenen Faktoren auf die endogene Variable. Das Modell vermutet also, dass eine gesunde Ernährung bzw. regelmäßige Bewegung zu einer besseren Gesundheit führt.
Außerdem kannst du einen Doppelpfeil zwischen „Ernährung“ und „Bewegung“ setzen. Das bedeutet, dass zwischen diesen beiden Variablen eine Kovarianz oder Korrelation besteht. Sie stehen also miteinander in Beziehung, aber keine wirkt direkt auf die andere.
Messmodell
Im Anschluss erstellst du die verschiedenen Messmodelle. Sie beschreiben, wie die latenten Variablen durch manifeste Variablen gemessen werden. Diese kennzeichnest du als Rechtecke.
Im Beispiel kannst du die latenten Variablen mit den folgenden manifesten Variablen messen:
- Ernährung → Anzahl der Obst- und Gemüseportionen pro Tag, Kalorienaufnahme
- Bewegung → Anzahl der Schritte pro Tag, Häufigkeit des Trainings
- Gesundheit → Blutdruck, Cholesterinwerte
Faktorenanalyse
Die Faktorenanalyse wird oft verwendet, um die Beziehungen zwischen den manifesten und den latenten Variablen zu modellieren. In unserem Beispiel könnte eine Faktorenanalyse zeigen, wie gut die Anzahl der Obst- und Gemüseportionen und die Kalorienaufnahme die latenten Variable „Ernährung“ repräsentieren. Dafür werden Faktorladungen berechnet.
Hohe Faktorladungen bedeuten, dass die manifeste Variable ein guter Indikator für die latente Variable ist. Zu niedrige Faktorladungen könnten ein Anzeichen dafür sein, dass die manifeste Variable nicht gut zur latenten Variable passt. In solchen Fällen solltest du die Wahl deiner manifesten Variable kritisch überdenken.
Die Faktorenanalyse ist deshalb eine gute Wahl, wenn du aus den manifesten Faktoren die latente Variable identifizieren möchtest.
Lineare Regression
In einigen Fällen wird auch die lineare Regression verwendet, um die Beziehungen zwischen manifesten und latenten Variablen zu beschreiben. Zum Beispiel könnte eine lineare Regression verwendet werden, um zu schätzen, wie stark der Blutdruck und der Cholesterinspiegel die latente Variable „Gesundheit“ beeinflussen. Wenn die Einflüsse niedrig sind, also die Regressionskoeffizienten nahe Null liegen, haben die manifesten Variablen nur einen geringen Einfluss auf die latente Variable. In solchen Fällen solltest du das Modell überprüfen oder zusätzliche Variablen berücksichtigen.
Die lineare Regression verwendest du also, wenn du die Beziehung zwischen einer latenten Variable und mehreren manifesten Faktoren verstehen möchtest.
Methoden zur Parameterschätzung
Um die Stärke und Richtung der Beziehungen zwischen den Variablen zu bestimmen, werden die Parameter mit bestimmten Methoden geschätzt.
Die gebräuchlichste Schätzmethode ist die Maximum-Likelihood-Methode (ML). Dabei wird versucht, die Parameter so zu schätzen, dass die beobachteten Daten am wahrscheinlichsten sind. Weitere Methoden sind die Generalized Least Squares-Methode (GLS) oder die Weighted Least Squares-Methode (WLS).
Tipp: Ein Strukturgleichungsmodell kannst du mit verschiedenen Softwareprogrammen erstellen. Dazu zählen AMOS, EQS und Mplus.
Voraussetzung für die Maximum-Likelihood-Methode ist, dass deine Daten normalverteilt sind. Wenn die Daten nicht normalverteilt oder die manifesten Variablen kategorial sind, könnten GLS oder WLS besser geeignet sein. Sie stellen geringere Anforderungen an die Daten.
Interpretation der Parameter
Nach der Auswahl der Methode und der Durchführung der Parameterschätzung erhältst du folgende Parameter, die dir Aufschluss über die Beziehungen zwischen den Variablen geben:
- Pfadkoeffizienten: Diese Zahlen, oft neben den Pfeilen angezeigt, geben die Stärke der Beziehung zwischen den Variablen an. Sie können positiv oder negativ sein.
- Fehlerterme: Jede endogene Variable hat einen zugehörigen Fehlerterm, der oft als kleiner Kreis dargestellt wird. Dieser Fehlerterm fängt die Varianz auf, die nicht durch die exogenen Variablen erklärt wird.
Zum Beispiel hast du einen Pfadkoeffizienten von 0,4 von Ernährung zu Gesundheit. Das heißt, dass eine bessere Ernährung einen mittleren positiven Einfluss auf die allgemeine Gesundheit hat. Ein Fehlerterm von 0,2 würde bedeuten, dass 20 % der Varianz in der „Gesundheit“ nicht durch die „Ernährung“ und „Bewegung“ erklärt wird. Das könnte bedeuten, dass es noch andere Faktoren gibt, die die Gesundheit beeinflussen.
Voraussetzungen SEM-Modell
Bevor du ein Strukturgleichungsmodell durchführst, ist es wichtig sicherzustellen, dass deine Daten bestimmte Voraussetzungen erfüllen. Diese Voraussetzungen sind entscheidend für die Gültigkeit und Zuverlässigkeit der Ergebnisse.
-
Stichprobengröße
Eine ausreichend große Stichprobe ist wichtig. Es gibt keine strikte Regel für die Mindeststichprobengröße. Du kannst aber mit mindestens 100 Beobachtungen pro latente Variable rechnen. Als Faustregel gilt dabei: je komplexer das Modell, desto größer sollte die Stichprobe sein.
-
Lineare Beziehungen
Die Beziehungen zwischen den Variablen sollten linear sein. Nichtlineare Beziehungen können das Modell verzerren.
-
Multinormalverteilung
Für ein Strukturgleichungsmodell sollten die Daten multivariat normalverteilt sein. Das bedeutet, dass alle Variablen gemeinsam eine mehrdimensionale Normalverteilung aufweisen. Dies ist besonders wichtig, wenn mehrere abhängige Variablen im Modell sind.
-
Anzahl zu schätzender Parameter
Die Anzahl der zu schätzenden Parameter sollte kleiner sein als die Anzahl der Freiheitsgrade im Modell. Die Freiheitsgrade beziehen sich auf die Anzahl der Informationen, die in den beobachteten Daten enthalten sind. Diese werden genutzt, um die Parameter im Modell zu schätzen. Wenn die Anzahl der zu schätzenden Parameter größer ist, gibt es nicht genügend Informationen, um alle Parameter zuverlässig zu schätzen.
Strukturgleichungsmodell — häufigste Fragen
-
Was ist ein Strukturgleichungsmodell?
Ein Strukturgleichungsmodell ist ein statistisches Verfahren zur Analyse komplexer Beziehungen zwischen mehreren Variablen. Es kombiniert Pfadanalyse, Faktorenanalyse und linearen Regression, um sowohl latente als auch manifeste Variablen zu berücksichtigen.
-
Was ist eine latente Variable Beispiel?
Eine latente Variable ist eine nicht direkt messbare Größe, die durch manifeste Indikatoren repräsentiert wird. Zum Beispiel kann „Lebenszufriedenheit“ als latente Variable durch Faktoren wie Einkommen, Gesundheit und soziale Beziehungen gemessen werden.
Regressionsanalyse
Neben dem Strukturgleichungsmodell zählt auch die Regressionsanalyse zu den strukturprüfenden multivariaten Verfahren. Mehr zur Regressionsanalyse erfährst du in unserem Beitrag!