Induktive Statistik

Bestimmtheitsmaß

In diesem Artikel erfährst du alles Wichtige zum Bestimmtheitsmaß R². Wir erklären dir, was das Bestimmtheitsmaß ist, wie du es berechnest und was du bei der Interpretation beachten musst. 

Du möchtest das Thema noch schneller abhaken? Dann sieh dir unser Video an und lerne dort ganz entspannt alles,  was du wissen musst! 

Inhaltsübersicht

Bestimmtheitsmaß R² einfach erklärt

Das Bestimmtheitsmaß R^2 (auch: Determinationskoeffizient, R squared) ist eine Kennzahl der Regressionsanalyse . Sie gibt dir Auskunft darüber, wie gut du die abhängige Variable mit den betrachteten unabhängigen Variablen vorhersagen kannst. In der Fachsprache sagt man, es gibt an, welchen Anteil der Varianz der abhängigen Variable durch die unabhängige(n) Variable(n) „aufgeklärt“ wird. Das Bestimmtheitsmaß kann Werte zwischen 0 und 1 annehmen. Prinzipiell stehen dabei höhere Werte für eine bessere Vorhersage der abhängigen Variable.

Wie hoch es sein soll, hängt dabei allerdings von den betrachteten Variablen und dem untersuchten Thema ab. Tendenziell überschätzt das Bestimmtheitsmaß R^2 zudem leicht den Anteil der aufgeklärten Varianz. Deshalb verwendet man das adjustierte Bestimmtheitsmaß \hat\rho^2, wenn man Aussagen aus einer Stichprobe auf die Grundgesamtheit übertragen möchte.

Bestimmtheitsmaß Herleitung 

Das Bestimmtheitsmaß R^2 zeigt den Anteil der aufgeklärten Varianz an der Gesamtvarianz der abhängigen Variable (AV).

\displaymode R^2 = \frac {Aufgeklärte Varianz der AV} {Gesamtvarianz der AV}

Um diese Statistik zu verstehen, müssen wir uns  also nochmal die Bedeutung der Varianz ins Gedächtnis rufen: Grob gesagt beschreibt die Varianz, wie stark sich die Messwerte in einer Stichprobe unterscheiden. Eine kleine Varianz sagt aus, dass sich die Messwerte alle sehr ähneln. Eine große Varianz heißt hingegen, dass die Werte sehr unterschiedlich sind und weit verstreut liegen.

Stell dir nun vor, du betrachtest in einer Untersuchung die erreichte Punktzahl in einer Matheprüfung. Vermutlich werden nicht alle Personen in der Prüfung die gleiche Punktzahl erreicht haben. Stattdessen werden  einige werden besser, und andere schlechter abgeschnitten haben. Es gibt also Varianz in der erreichten Punktzahl.

Nun kann es verschiedene Gründe geben, warum Personen in der Prüfung mehr oder weniger Punkte erreicht haben. Beispielsweise könnte das Ausmaß der Vorbereitung  einen Einfluss auf das Prüfungsergebnis haben. Ebenfalls könnte die Intelligenz oder das Vorwissen einer Person die Leistung beeinflussen. Und schließlich könnten Personen abgeschrieben, schlecht geschlafen oder vor der Prüfung sehr viel Kaffee getrunken haben, was ihre zusätzlich Punktzahl beeinflusst. All diese Gründe können dazu führen, dass Personen unterschiedliche Punktzahlen in der Prüfung erreichen. 

In einer Regressionsanalyse wählst du nun einzelne dieser möglichen Gründe als unabhängige Variablen aus. Von diesen Variablen vermutest du, dass sie einen besonders starken Einfluss auf die abhängige Variable „Punkte in der Matheprüfung“ haben könnten.

Dein Ziel ist es, mit Hilfe der unabhängigen Variablen möglichst gut zu erklären, warum sich die Punktzahlen verschiedener Personen in der Prüfung unterscheiden. In der Fachsprache sagt man, du möchtest möglichst viel Varianz der abhängigen Variable durch die unabhängige Variable „aufklären“. Du untersuchst also zum Beispiel, wie viel der Unterschiedlichkeit der erreichten Punktzahlen dadurch erklärt werden kann, dass Menschen unterschiedlich intelligent sind. 

% Zu weit ausgeholt oder okay?

Bestimmtheitsmaß Berechnung 

Das Bestimmtheitsmaß R^2 ist nun eine Kennzahl, die dir genau das verrät. Es gibt an, welcher Anteil der Varianz der Punktzahl (also der abhängigen Variablen) durch die Intelligenz (die unabhängige Variable) erklärt werden kann.

Um es zu berechnen, kannst du diese Formel verwenden: 

Bestimmtheitsmaß: Formel 1

\displaymode R^2= \frac{SQE}{SQT}=\frac{\sum (\hat y_i-\bar y)^2}{\sum(y_i-\bar y)^2}

R^2 – Bestimmtheitsmaß in der Stichprobe
SQE – Aufgeklärte Varianz der abhängigen Variable 
SQT – Totale Varianz der abhängigen Variable
\hat y_i – Vorhergesagter Wert der Person i auf der abhängigen Variable 
\bar y – Mittelwert der abhängigen Variable 
y_i – Beobachteter Wert von Person i auf der abhängigen Variable 

Du teilst also die aufgeklärte Varianz durch die gesamte Varianz der abhängigen Variable. Damit erhältst du, welcher Anteil an der Gesamtvarianz durch die unabhängigen Variablen aufgeklärt werden konnte.

Alternativ kannst du R^2 auch über die nicht aufgeklärte Varianz berechnen: 

Bestimmtheitsmaß: Formel 2 

\diyplaymode R^2 = 1 -\frac{SQR}{SQT}=\frac{\sum (y_i-\hat y_i)^2}{\sum(y_i-\bar y)^2}

R^2 – Bestimmtheitsmaß in der Stichprobe
SQR – Nicht aufgeklärte Varianz der abhängigen Variable 
SQT – Totale Varianz der abhängigen Variable
\hat y_i – Vorhergesagter Wert der Person i auf der abhängigen Variable 
\bar y – Mittelwert der abhängigen Variable 
y_i – Beobachteter Wert von Person i auf der abhängigen Variable  

Bei diesem Rechenweg ziehst du den Anteil der Varianz, der nicht aufgeklärt wurde, von 1 ab. Da sich die Anteile von aufgeklärter und nicht aufgeklärter Varianz zu 1 ergänzen, erhältst du auch über diesen Weg das Ergebnis für R^2.

Beide Formeln liefern also das gleiche Ergebnis. Welchen Weg du zur Berechnung wählst, hängt meist einfach davon ab, welche Angaben du in der Aufgabe gegeben hast. Bei der einfachen linearen Regression kannst du das Bestimmtheitsmaß sogar noch einfacher berechnen: Hier erhältst du es, in dem du einfach den Korrelationskoeffizienten R quadrierst. 

Um das Konzept des Bestimmtheitsmaß möglichst einfach zu verdeutlichen, haben wir in diesem Beitrag ein Beispiel  gewählt, dass einen kausalen Zusammenhang zwischen unabhängiger und abhängiger Variable nahe legt („Eine Person ist besser in der Prüfung, weil sie intelligenter ist“). Bitte beachte aber, dass du im Zuge einer Regressionsanalyse nicht einfach von einer Korrelation auf Kausalität schließen darfst! Ob das möglich ist, hängt immer von deinem gewählten Untersuchungsdesign (z.B. Experiment) ab.  %Verlinkung auf Korrelation Kausalität

Bestimmtheitsmaß Interpretation

Da das Bestimmtheitsmaß einen Anteil von etwas ausdrückt, kann es Werte zwischen 0 und 1 annehmen. Größere Werte stehen hierbei für mehr aufgeklärte Varianz und somit für eine bessere Vorhersage der abhängigen Variable. 

Zwar spricht ein hohes Bestimmtheitsmaß für einen starken Zusammenhang zwischen unabhängiger und abhängiger Variable, das bedeutet jedoch im Umkehrschluss nicht, dass gar kein Zusammenhang besteht, wenn R^2 nahe oder gleich 0 ist. Das liegt daran, dass R^2 nur geeignet ist, um lineare Zusammenhänge abzubilden. Stehen deine Variablen also zum Beispiel in einem quadratischen oder exponentiellen Verhältnis zueinander, wird R^2 quasi 0 sein, obwohl die Variablen systematisch zusammenhängen. Um solche Fälle zu erkennen, hilft es sich Diagramme deiner Daten anzusehen. 

Generell kannst du das Bestimmtheitsmaß aber so interpretieren: Nehmen wir an, du erhältst ein Bestimmtheitsmaß von R^2=.30. Das bedeutet, dass 30 % der Varianz der abhängigen Variablen durch die unabhängige(n) Variable(n) aufgeklärt werden konnten. 70 % der Unterschiedlichkeit der Messwerte geht hingegen auf Einflüsse zurück, die wir in unserer Untersuchung nicht betrachtet haben. Diese Varianz aufgrund von unbekannten Einflüssen bezeichnen wir pauschal als „Fehler-„ oder als „Residualvarianz“

Wie hoch das Bestimmtheitsmaß mindestens sein soll, lässt sich nicht pauschal festlegen. Das hängt von verschiedenen Faktoren ab, beispielsweise in welchem Forschungsfeld du deine Untersuchung durchführst und wie viele unabhängige Variablen du gleichzeitig betrachtest. Wenn du dir unsicher bist, wie hoch R^2 in einem konkreten Fall sein sollte, dann schlage am besten in anderen Untersuchungen zu deinem Thema nach. 

Adjustiertes Bestimmtheitsmaß 

Nun weißt du bereits, wie man das Bestimmtheitsmaß in einer Stichprobe berechnet und interpretiert. Allerdings fällt das Bestimmtheitsmaß durch zufällige Fehler  in Stichproben meistens etwas zu hoch aus. Wie stark diese Überschätzung ist, ist dabei von der Stichprobengröße und der Anzahl der betrachteten Variablen abhängig. Das ist vor allem ein Problem, wenn du Ergebnisse aus der Stichprobe auf die Grundgesamtheit übertragen möchtest. Deshalb gibt es eine Formel, mit der du die Überschätzung von R^2 korrigieren kannst. Die korrigierte Version des Bestimmtheitsmaßes wird adjustiertes Bestimmtheitsmaß  \rho^2 oder auch „adjusted squared multiple R“ genannt. 
Du berechnest es so: 

Adjustiertes Bestimmtheitsmaß: Formel 

\displaymode\hat\rho^2=1-(1-R^2)\times \frac {n-1}{n-k-1}

\hat\rho^2 – Adjustiertes Bestimmtheitsmaß 
R^2 – Bestimmtheitsmaß in der Stichprobe 
n – Stichprobengröße 
k – Anzahl der unabhängigen Variablen 

Hallo, leider nutzt du einen AdBlocker.

Auf Studyflix bieten wir dir kostenlos hochwertige Bildung an. Dies können wir nur durch die Unterstützung unserer Werbepartner tun.

Schalte bitte deinen Adblocker für Studyflix aus oder füge uns zu deinen Ausnahmen hinzu. Das tut dir nicht weh und hilft uns weiter.

Danke!
Dein Studyflix-Team

Wenn du nicht weißt, wie du deinen Adblocker deaktivierst oder Studyflix zu den Ausnahmen hinzufügst, findest du hier eine kurze Anleitung. Bitte lade anschließend die Seite neu.