Korrelationskoeffizient
In diesem Artikel erklären wir dir, was der Korrelationskoeffizient ist und wie du ihn berechnest.
Noch einfacher verstehst du das Thema mit unserem Video – hier haben wir das Wichtigste in nur wenigen Minuten verständlich für dich zusammengefasst.
Inhaltsübersicht
Korrelationskoeffizient einfach erklärt
Der Korrelationskoeffizient (auch Pearson Korrelation ) ist ein Maß dafür, wie stark zwei Variablen zusammenhängen. Hängen zwei Variablen miteinander zusammen, dann kannst du Aussagen darüber treffen, wie sich die Werte der einen Variable verhalten, wenn die Werte der anderen Variable ansteigen oder abfallen. Je enger die Variablen dabei zusammenhängen, desto genauere Aussagen kannst du treffen.
Der Korrelationskoeffizient kann Werte zwischen -1 und 1 annehmen. Werte kleiner als null stehen für einen negativen Zusammenhang zwischen den Variablen, Werte größer als null für einen positiven. Je näher der Korrelationskoeffizient bei 1 (bzw. bei -1) liegt, desto stärker ist der Zusammenhang der Variablen. Liegt der Korrelationskoeffizient hingegen nahe null, dann besteht kein linearer Zusammenhang zwischen den Variablen.
Ein Beispiel für eine Korrelation ist der Zusammenhang zwischen der Außentemperatur und der Menge an verkauftem Eis: Je höher die Temperatur ist, desto mehr Eis wird voraussichtlich verkauft werden. Wenn die Werte der einen Variable ansteigen, steigen also auch die Werte der anderen und die beiden Größen korrelieren.
Berechnen kannst du den Korrelationskoeffizienten mit dieser Formel:
– Korrelationskoeffizient
– Kovarianz der Variablen x und y
– Standardabweichung der Variable x
– Standardabweichung der Variable y
Wie du bei der Berechnung genau vorgehen musst, sehen wir uns weiter unten in diesem Beitrag an einem Beispiel an.
Was bedeutet der Korrelationskoeffizient?
Sehen wir uns nun im Detail an, was ein positiver und ein negativer Korrelationskoeffizient genau bedeutet:
- : Ist der Korrelationskoeffizient größer als null, spricht man von einer positiven Korrelation. In diesem Fall gilt „je mehr desto mehr“. Das heißt, je höher die Werte der einen Variablen sind, desto höher sind auch die Werte der anderen Variable. Ein Beispiel für einen positiven Korrelationskoeffizienten wäre etwa der Zusammenhang zwischen der Körpergröße und der Schuhgröße einer Person: Je größer jemand ist, desto größere Schuhe wird er tendenziell auch tragen.
- : Ist der Korrelationskoeffizient kleiner als null, ist der Zusammenhang negativ. Das bedeutet, wir befinden uns im „je mehr desto weniger Fall“. Bei einer negativen Korrelation gehen nämlich höhere Werte der einen Variablen mit niedrigeren Werten der anderen Variablen einher. Ein Beispiel dafür wäre die Korrelation zwischen den bearbeiteten Übungsaufgaben und den Fehlern in einem Test: Je mehr Übungsaufgaben jemand bearbeitet hat, desto weniger Fehler wird er voraussichtlich machen.
- : Liegt der Korrelationskoeffizient nahe 0, gibt es keinen linearen Zusammenhang zwischen den Variablen. Folglich kannst du mit dem Korrelationskoeffizienten keine Aussage darüber machen, wie sich die Werte der einen Variablen verändern, wenn die Werte der anderen Variable steigen. Beachte allerdings, dass der Korrelationskoeffizient nur lineare Zusammenhänge abbildet. Es kann also sein, dass deine Variablen vielleicht trotzdem zusammenhängen, nur eben quadratisch oder exponentiell.
Berechnung: Beispiel
Sehen wir uns jetzt an, wie du den Korrelationskoeffizienten berechnen kannst. Die Formel dafür sieht so aus:
Wie du sie genau verwendest, zeigen wir dir jetzt anhand eines Beispiels:
Stell‘ dir vor, du möchtest berechnen, ob die Anzahl der durchschnittlichen Sonnenstunden pro Tag (x) mit den Besuchszahlen eines Freizeitparks (y) korreliert.
Um den Korrelationskoeffizienten zu berechnen, benötigst du zunächst die Daten deiner beiden Variablen. Dafür notierst du in einer Tabelle für jeden Monat, wie viel die Sonne geschienen hat und wie viele Personen den Freizeitpark besucht haben
Monat i | Anzahl Sonnenstunden x | Besucherzahl y |
---|---|---|
1 | 1,6 | 28300 |
2 | 2,6 | 28000 |
3 | 3,7 | 41000 |
4 | 5,3 | 40000 |
5 | 6,9 | 48000 |
6 | 7,1 | 47500 |
7 | 7,2 | 43000 |
8 | 6,7 | 50700 |
9 | 5,1 | 50000 |
10 | 3,6 | 48000 |
11 | 2,1 | 25000 |
12 | 1,4 | 24000 |
Nun hast du alle Informationen beisammen und kannst mit der Berechnung starten. Als erstes berechnest du die Mittelwerte der Variablen:
Über das Jahr hinweg scheint die Sonne also durchschnittlich 4,44 Stunden pro Tag und der Freizeitpark wird im Mittel von 39458 Personen pro Monat besucht.
Im nächsten Schritt berechnest du die Standardabweichungen sowie die Kovarianz deiner beiden Variablen.
Wenn du dir nicht mehr ganz sicher bist, wie du dabei vorgehen musst, dann sieh dir gerne nochmal unsere separaten Beiträge zur Standardabweichung und zur Kovarianz an.
Perfekt! Jetzt haben wir alle Informationen zusammen, die wir für die Berechnung des Korrelationskoeffizienten brauchen. Die gefundenen Standardabweichungen und die Kovarianz müssen wir jetzt nämlich nur noch in die Formel einsetzen:
Perfekt! Die Korrelation zwischen der Anzahl der Sonnenstunden und der Besucherzahl des Freizeitparks beträgt . Je mehr Sonnenstunden es in einem Monat gibt, desto mehr Gäste kommen also in den Freizeitpark.
Korrelation und Kausalität
Bei der Interpretation des Korrelationskoeffizienten musst du jedoch aufpassen! Nur weil zwei Variablen miteinander zusammenhängen, weißt du nicht, welche Variable welche beeinflusst, auch wenn es naheliegend erscheint. Bezogen auf unser Beispiel darfst du also nicht schlussfolgern, dass in manchen Monaten mehr Personen den Park besuchen, weil die Sonne häufiger scheint. Stattdessen weißt du lediglich, dass sich die Zahlen auf eine bestimmte Art verhalten, du weißt jedoch nicht warum. Wenn du mehr über den Unterschied zwischen Korrelation und Kausalität erfahren möchtest, dann klick hier .
Höhe des Korrelationskoeffizienten
Vielleicht fragst du dich, wie hoch der Korrelationskoeffizient mindestens sein sollte, damit du von einem Zusammenhang ausgehen kannst. Diese Frage lässt sich nicht eindeutig beantworten, sondern hängt auch von dem Thema ab, das du bearbeitest. Generell gilt jedoch
- : Kleiner Zusammenhang
- : Mittlerer Zusammenhang
- : Starker Zusammenhang
Wenn du den Korrelationskoeffizienten quadrierst, erhältst du zudem das Bestimmtheitsmaß . Es sagt dir, welchen Anteil der Varianz der einen Variable du mit Hilfe der anderen Variable erklären kannst. Wie genau das funktioniert erfährst du gleich im Video zum Bestimmtheitsmaß. Schau es dir unbedingt an um das Thema richtig zu verstehen!