Induktive Statistik

ANOVA

Du möchtest verstehen, wie die ANOVA funktioniert und was du dabei beachten musst? Dann bist du in diesem Artikel genau richtig! Du lernst lieber audiovisuell? Dann haben wir mit unserem Video die perfekte Lernhilfe für dich!

Inhaltsübersicht

ANOVA einfach erklärt

Die ANOVA ist ein statistisches Analyseverfahren, mit dem du untersuchen kannst, ob sich die Mittelwerte verschiedener Gruppen statistisch signifikant unterscheiden. Das Ziel ist also das gleiche wie beim t-Test , nur dass du mit der ANOVA mehr als zwei Gruppen gleichzeitig miteinander vergleichen kannst. Eine beispielhafte Fragestellung, die du mit der ANOVA untersuchen könntest, wäre etwa ob sich das mittlere Wohlbefinden nach dem Konsum von Vollmilch-, Zartbitter- und weißer Schokolade signifikant unterscheidet.

ANOVA und Mittelwerte

Der Name des Verfahrens „analysis of variance“ – kurz ANOVA – ist hierbei auf den ersten Blick etwas irreführend, schließlich möchtest du Mittelwerte und nicht Varianzen vergleichen. Allerdings betrachtest du bei der ANOVA verschiedene Varianzanteile und zieht auf Grundlage deren Verhältnisse Rückschlüsse über die Mittelwerte. Wie das genau funktioniert, sehen wir uns im Laufe dieses Artikels näher an.

Liegt ein signifikantes Ergebnis vor, kannst du daraus schließen, dass sich die Mittelwerte der verschiedenen Gruppen unterscheiden. Du weißt allerdings nicht, welche Gruppen sich genau unterscheiden. Möchtest du darüber weitere Informationen sammeln, musst du im Anschluss an die ANOVA noch Nachfolgeanalysen, sogenannte „Post-Hoc Tests“, durchführen.

Grundidee der ANOVA

In der Vergangenheit hast du vermutlich bereits gelernt, dass du die Mittelwerte verschiedener Gruppen mit Hilfe des t-Tests vergleichen kannst. Allerdings kannst du mit dem t-Test immer nur zwei Gruppen gleichzeitig betrachten. Um  mehr als zwei Gruppen mit dem t-Test zu betrachten, müsstest du mehrere Tests rechnen, was zum Einen sehr aufwendig ist und zum Anderen einige mathematische Probleme mit sich bringt.

In diesem Fall ist es deshalb besser auf eine ANOVA zurückzugreifen. Mit dieser Methode kannst du beliebig viele Mittelwerte mit nur einem einzigen Test miteinander vergleichen. Dabei vergleichst du jedoch nicht die Mittelwerte direkt, sondern analysierst verschiedene Varianzanteile, um Rückschlüsse über die Gleich- oder Ungleichheit der Mittelwerte zu ziehen. Daher kommt auch der Name ANOVA – analysis of variance.

Die Grundidee hinter der ANOVA ist die Annahme, dass Personen aus verschiedenen Gründen unterschiedliche Messwerte erhalten können. Es könnte etwa sein, dass Personen unterschiedliche Persönlichkeitseigenschaften haben, du sie zu einer bestimmten Tageszeit befragt hast oder du einfach ungenau gemessen hast. All diese Aspekte führen dazu, dass Personen unterschiedliche Messwerte zeigen und Varianz entsteht.

Es könnte zudem jedoch auch sein, dass die Unterschiedlichkeit der Messwerte  teilweise dadurch zu Stande kommt, dass die Personen bestimmten unterschiedlichen Gruppen angehören.  Es könnte ja sein, dass Personen aus Gruppe 1 durchschnittlich deutlich höhere Messwerte zeigen aus Personen aus Gruppe 2 und 3. Auch das würde dafür sorgen, dass Personen unterschiedliche Messwerte haben und Varianz entsteht. 

Mit der ANOVA kannst du nun mathematisch überprüfen, ob eine Erklärung für die Varianz deiner Messwerte ist, dass Personen bestimmten Gruppen zugeteilt wurden.

Grundidee: Beispiel

Damit du dir das besser vorstellen kannst, sehen wir uns dafür nochmal das Beispiel vom Anfang des Artikels an: Du möchtest untersuchen, ob Personen ein unterschiedliches Wohlbefinden (abhängige Variable) zeigen, je nach dem ob sie Zartbitter-, Vollmilch- oder weiße Schokolade (unabhängige Variable) gegessen haben.

Dabei wird es vermutlich so sein, dass nicht alle Personen den gleichen Messwert für das Wohlbefinden zeigen. Stattdessen werden einige Personen glücklicher sein und andere weniger glücklich. Das kann verschiedene Gründe haben: Vielleicht sind einige Personen einfach immer gut gelaunt oder andere haben aktuell Liebeskummer oder haben beim Ausfüllen des Fragebogens aus Versehen das falsche Kästchen angekreuzt. All diese Aspekte führen dazu, dass Personen unterschiedliche Messwerte haben oder mathematisch ausgedrückt – dass es Varianz gibt. 

Zusätzlich kann es jedoch auch sein, dass Personen ein unterschiedliches Wohlbefinden zeigen, weil sie zuvor unterschiedliche Schokoladensorten gegessen haben. So kann es beispielsweise sein, dass sich Personen, die Vollmilchschokolade gegessen haben, durchschnittlich besser fühlen als Personen, die weiße oder Zartbitterschokolade zu sich genommen haben. Damit wäre die Schokoladensorte eine weitere Erklärung dafür, dass Personen verschiedene Messwerte haben und es Varianz gibt.

Mit der ANOVA möchtest du nun zeigen, dass du einen Teil der Varianz des Wohlbefindens damit erklären kannst, dass Personen unterschiedliche Schokoladen gegessen haben. So kannst du mit Hilfe eines kleinen Umwegs über die Varianz Aussagen über die Gleich- oder Verschiedenheit der Mittelwerte machen.

ANOVA: Formales

Nun weißt du bereits, was die Grundidee der ANOVA ist. Im nächsten Schritt sehen wir uns nun die Begrifflichkeiten und Voraussetzungen dieses Verfahrens an.

Zunächst die Begrifflichkeiten:

  • Die unabhängige Variable (UV) nennt man bei der ANOVA Faktor. Du möchtest  dabei überprüfen, ob der Faktor einen Einfluss auf die abhängige Variable hat. Der Faktor ist immer nominalskaliert , das heißt er hat nur ein paar, gleichwertige Ausprägungen. In unserem Beispiel ist der Faktor die Schokolade.
  • Die verschiedenen Ausprägungen des Faktors werden in der ANOVA Stufen genannt. Sie bilden die einzelnen Gruppen, die du untersucht hast. In unserem Beispiel sind die Stufen des Faktors die Vollmilch-, die Zartbitter- und die weiße Schokolade.
  • Die abhängige Variable (AV) muss im Gegensatz zur unabhängigen Variable bei der ANOVA intervallskaliert  sein. In unserem Beispiel ist die abhängige Variable das Wohlbefinden, das auf einer Skala von 1 bis 100 gemessen wurde. Ziel der ANOVA ist es, einen möglichst großen Teil der Varianz der abhängigen Variable mit Hilfe des Faktors erklären zu können.
  • Kannst du mit Hilfe der ANOVA nachweisen, dass sich die Mittelwerte der verschiedenen Gruppen unterscheiden, spricht man von einem Effekt.

Um eine ANOVA durchführen zu können müssen einige Voraussetzungen erfüllt sein. Etwa musst du überprüfen, ob Varianzhomogenität vorliegt. Zudem musst sichergestellt sein, dass sich die Restfehler normalverteilen. Da die Prüfung der Voraussetzungen relativ aufwendig ist, gehen wir in diesem Artikel aus Platzgründen nicht näher darauf ein. Planst du selbst eine ANOVA durchzuführen, informiere dich jedoch vorher darüber, was du dabei beachten musst. 

ANOVA: Varianzzerlegung 

Als nächstes sehen wir uns die mathematische Herleitung der ANOVA an.

Bei der ANOVA willst du zeigen, dass ein Teil der Varianz der AV durch den Faktor verursacht wurde und ein  anderer Teil durch unbekannte Einflüsse sowie durch Messfehler. Ist das der Fall, dann setzt sich die Varianz der AV folgendermaßen zusammen: 

\sigma^2_X = \sigma^2_\alpha + \sigma^2_E

In Worten: Die Gesamtvarianz der AV  \sigma^2_X setzt sich zusammen aus einem Teil, der durch den Faktor verursacht wurde (\sigma^2_\alpha) und einem Teil, den wir nicht erklären können (\sigma^2_E).  Den Teil der Varianz, den wir nicht erklären können, nennen wir Fehlervarianz, den Teil, den wir erklären können, Effektvarianz.

Hat unser Faktor hingegen keinerlei Einfluss auf die AV, dann kannst du keinen Teil der Varianz der AV durch den Faktor erklären. In diesem Fall wäre die gesamte Varianz der AV Fehlervarianz

Wenn \sigma^2_\alpha = 0, dann \sigma^2_X =  \sigma^2_E

Mit der ANOVA wollen wir zwischen diesen beiden Fällen unterscheiden. Dabei ist unsere Hypothese, dass die Effektvarianz größer als 0 ist und somit Unterschiede zwischen den Gruppenmittelwerten existieren. 

Zu prüfende Fragestellung: \sigma^2_\alpha >0 ? 

ANOVA: Aufbau des Tests 

Um zu klären, ob es einen Teil der Varianz gibt, die durch die UV verursacht wurde, müssen wir testen, ob \sigma^2_\alpha >0.  Da wir das wahre \sigma^2_\alpha  in der Grundgesamtheit nicht kennen, müssen wir es mit Hilfe unserer Stichprobe schätzen. 

Blöderweise können wir die Effektvarianz \sigma^2_\alpha mit unserer Stichprobe nicht einzeln schätzen, sondern der Schätzer ist immer mit der Fehlervarianz \sigma^2_E vermischt. Wir haben somit nicht einen Schätzer nur für die Effektvarianz, sondern für die Effekt- und die Fehlervarianz zusammen. Wir bezeichnen ihn mit MQA

MQA = \hat {\sigma^2_E + \frac {N}{I-1} \sigma^2_\alpha}
% wie erreiche ich, dass das Dach über dem gesamten Term ist und nicht nur so klein in der Mitte irgendwo?

wobei I die Anzahl der Stufen des Faktors und N die Größe der gesamten Stichprobe ist. 

Die Fehlervarianz \sigma^2_E können wir hingegen einzeln schätzen.  Den Schätzer für die Fehlervarianz nennen wir hier MQR

MQR = \hat{\sigma^2_E}

Wir verzichten aus Platzgründen hier darauf, wie du MQA und MQR genau aus deinen Messwerten berechnest. Wenn du das gerne wissen möchtest, dann sieh dir diesen Artikel an. 

Folglich haben wir nun einen Schätzer für die Fehlervarianz (MQR) und einen Schätzer für die Fehlervarianz UND die Effektvarianz (MQA). Das können wir uns zu Nutze machen, um herauszufinden, ob die Effektvarianz größer als 0 ist.

  • MQR: Schätzer für die Fehlervarianz
  • MQA: Schätzer für die Fehlervarianz UND die Effektvarianz zusammen 

Für den Fall, dass unser Faktor keine Varianz aufklärt, ist \sigma^2_\alpha = 0. In diesem Fall sind sowohl die MQA als auch die MQR reine Schätzer für die Fehlervarianz.

Wenn \sigma^2_\alpha = 0

MQA = \hat {\sigma^2_E + \frac {N}{p-1} \sigma^2_\alpha} =  \hat {\sigma^2_E} + 0 = \hat {\sigma^2_E}

Ist \sigma^2_\alpha hingegen größer als 0, dann sollte MQA größer werden als MQR, da die MQA die Fehlervarianz plus die Effektvarianz enthält, MQR hingegen nur die Fehlervarianz.

Wenn \sigma^2_\alpha > 0
MQA > MQR 

Auf dieser Idee beruht in der Folge der Test der ANOVA. Um zu überprüfen, ob \sigma^2_\alpha >0, testen wir, ob MQA signifikant größer ist als MQR.  Ist das der Fall, dann  muss es einen Teil der Varianz geben, der keine Fehler-, sondern Effektvarianz ist.

ANOVA: F-Test

Um nun zu überprüfen, ob die MQA signifikant größer ist als die MQR führst du einen F-Test durch. Den berechneten Wert erhältst du so:

F_{ber}= \frac {MQA}{MQR} 

Im Zähler steht nun also der Schätzer für Fehler- und Effektvarianz, im Nenner der reine Schätzer für die Fehlervarianz. Gibt es keine Effektvarianz, sollte der Bruch den Wert 1 (bzw. nahe 1) annehmen. Ist die Effektvarianz hingegen größer als 0, nimmt der Bruch zunehmend größere Werte an. 

Den mit der Formel erhaltenen Wert musst du mit dem kritischen Wert aus der F-Tabelle vergleichen. Achte dabei darauf, dass du bei der ANOVA immer einseitig nach oben testest. Das bedeutet, du schlägst den kritischen Wert stets für 1-\alpha nach. Die Freiheitsgrade zum Nachschlagen des kritischen Werts erhältst du so:

\nu_1 = I- 1 und \nu_2 = N - I 

wobei I die Anzahl der Stufen des Faktors und N die Größe der gesamten Stichprobe ist. 

Den erhaltenen kritischen Wert vergleichst du mit dem berechneten F-Wert. Ist der berechnete Wert gleich oder größer dem kritischen Wert, dann kannst du die H_1 vorläufig annehmen und davon ausgehen, dass sich die Mittelwerte der verschiedenen Stufen des Faktors signifikant unterscheiden. 

Nachteile der ANOVA und Post-Hoc-Tests 

Nachdem du eine ANOVA durchgeführt hast, weißt du, ob sich die Mittelwerte der verschiedenen Stufen des Faktors unterscheiden. Du weißt jedoch nach wie vor nicht, welche Mittelwerte sich genau unterscheiden.  Um das herauszufinden, kannst du im Anschluss an die ANOVA noch weitere Nachfolgenanalysen, sogenannte „Post-Hoc-Tests“ durchführen. Hier gibt es verschiedene Tests, etwa den Scheffé-Test oder den Tukey HSD Test. Welchen Test du davon auswählen solltest, hängt von deinem konkreten Ziel ab. Hast du vor der Datenerhebung und der Durchführung der ANOVA bereits Hypothesen über den erwarteten Mittelwertsverlauf aufgestellt, kannst du auch eine Kontrastkodierung durchführen. 

Weitere Formen der ANOVA 

In diesem Beitrag haben wir die Grundidee und die Umsetzung der ANOVA vorgestellt. Dabei haben wir uns stets auf die einfaktorielle ANOVA bezogen. Bei der einfaktoriellen ANOVA gibt es, wie der Name schon vermuten lässt, einen Faktor beziehungsweise eine unabhängige Variable. Möchtest du zwei Faktoren gleichzeitig betrachten, ist auch das mit der ANOVA möglich. In diesem Fall spricht man von der zweifaktoriellen ANOVA.  Daneben gibt es zudem noch die ANOVA mit Messwiederholung. Diese Form wendest du an, wenn du Messwerte von mindestens drei Messzeitpunkten miteinander vergleichen willst. 

Hallo, leider nutzt du einen AdBlocker.

Auf Studyflix bieten wir dir kostenlos hochwertige Bildung an. Dies können wir nur durch die Unterstützung unserer Werbepartner tun.

Schalte bitte deinen Adblocker für Studyflix aus oder füge uns zu deinen Ausnahmen hinzu. Das tut dir nicht weh und hilft uns weiter.

Danke!
Dein Studyflix-Team

Wenn du nicht weißt, wie du deinen Adblocker deaktivierst oder Studyflix zu den Ausnahmen hinzufügst, findest du hier eine kurze Anleitung. Bitte lade anschließend die Seite neu.