Du möchtest wissen, was eine Regression ist und welche Grundlagen zur Berechnung einer Regression wichtig sind? Dann ist dieser Beitrag mit Video genau das Richtige für dich!

Inhaltsübersicht

Regression einfach erklärt

Eine Regression in Statistik beschreibt den Zusammenhang zwischen zwei oder mehr Variablen. Dabei unterscheidest du unabhängige Variablen (Prädiktoren) und abhängige Variablen (Kriterien). Mit der Regression kannst du Prognosen, also Vorhersagen, über das Kriterium aufstellen. 

Beispiel: Du vermutest, dass es einen Zusammenhang zwischen Körpergröße und Einkommen gibt. Mit einer Regression kannst du nun aus einer beliebigen Körpergröße das zukünftige Einkommen vorhersagen.

Mit der Regressionsanalyse zeichnest du eine Regressionsfunktion. Sie zeigt dir graphisch den Zusammenhang zwischen Prädiktor Körpergröße und Kriterium Einkommen.

Regression, Regressionsmodell, Regressionslinie, Regressionsgerade, Prädiktor, Kriterium, Punktewolke, Gerade, Graph, Punktewolke, Beispiel Regression
direkt ins Video springen
Regressionsmodell: Körpergröße sagt das Einkommen vorher

Jetzt kannst du Vorhersagen für die abhängige Variable Einkommen aufstellen. Voraussetzung dafür ist ein vorhandener Wert für die unabhängige Variable Körpergröße.

Aber Achtung! Umgekehrte Rückschlüsse darfst du nicht ziehen: Du kannst hier nicht von Einkommen auf die Körpergröße schließen.

Grundlagen der Regression

Angenommen, du hast herausgefunden, dass es einen Zusammenhang zwischen Einkommen und Körpergröße gibt. Diesen Zusammenhang nennst du auch Korrelation .

Du hast somit zwei Variablen für deine Regressionsrechnung vorliegen: Größe als Prädiktor und Einkommen als Kriterium.

Jetzt kannst du im Rahmen der Regressionsanalyse die Steigung der Regressionsgeraden ermitteln. In dem Beispiel heißt die positive Steigung der Geraden: Je größer die Person, desto höher ist ihr Einkommen.

Diese Aussage kann dich jetzt auf den ersten Blick verwundern. Deswegen ist es wichtig, dass du dir 2 Dinge merkst:

  1. Regressionen beschreiben keinen Kausalzusammenhang. Sie beschreiben eine Korrelation. Regressionen zeigen zwar, dass der Prädiktor mit dem Kriterium zusammenhängt. Aber bezogen auf das Beispiel heißt das nicht, dass große Menschen wegen ihrer Größe ein höheres Einkommen haben. Die Regressionsgerade zeigt nur, dass die beiden Variablen zusammenhängen. Das „Warum“ ist unklar.
  2. Regressionen sind lediglich Schätzungen. Sie versuchen anhand gegebener Daten eine möglichst gute Vorhersage zu berechnen. Regressionsberechnungen unterliegen immer Messfehlern.
Definition Regression Statistik

Die Regression ist eine Methode der Statistik. Sie beschreibt den Zusammenhang zwischen mindestens zwei Variablen . Die Regression versucht anhand unabhängiger Variablen (Prädiktoren) die abhängigen Variablen (Kriterien) vorherzusagen. Der Zusammenhang zwischen diesen Variablen ist linear.

Es gibt drei Regressionsmodelle:

  1. lineare Regression
  2. logistische Regression
  3. multiple Regression

Regressionsgleichung aufstellen

Super! Jetzt kennst du die Bedeutung einer Regression in Mathe .

Für eine Regression benötigst du immer auch eine Regressionsgleichung. Wie du sie aufstellst, erfährst du jetzt am Beispiel der bivariaten (linearen) Regression . Bivariat bedeutet, dass es eine unabhängige und eine abhängige Variable gibt.

Für die Regressionsgleichung verwendest du die allgemeine Form einer linearen Funktion :

f(x)= m ⋅ x + b

In dieser Funktionsgleichung ist m die Steigung und b der y-Achsenabschnitt.

Die Regressionsfunktion hat genau die gleiche Form. Regressionen in Statistik haben allerdings andere Buchstaben für die Gleichung. Die Bedeutung ist aber dieselbe.

    \[\textcolor{red}{\hat y} = \textcolor{orange}{b} \cdot x + \textcolor{olive}{a}\]

„Ypsilon Dach“ ist der Kriteriumswert, also der Wert der Variablen, die du vorhersagen willst. Das „Dach“ verdeutlicht, dass die Vorhersage immer nur geschätzt werden kann und deswegen fehlerbehaftet ist. Die Steigung einer Regression heißt b und der Y-Achsenabschnitt a. Die Steigung der Regressionsgeraden nennst du auch Regressionskoeffizient .

Regressionsfunktion 

Die Regressionsfunktion wird in der Regressionsanalyse berechnet. Sie beschreibt den Zusammenhang zwischen Variablen mit einer Geraden. Wenn Werte für die Prädiktoren eingesetzt werden, können anhand der Regressionsgeraden Werte für die Kriterien vorhergesagt werden.

Die Regressionsfunktion orientiert sich an der allgemeinen Form einer linearen Funktion y = mx + b. Die Steigung heißt bei der Regression allerdings Regressionskoeffizient b und der Y-Achsenabschnitt a: \hat y = bx + a.

Methode der kleinsten Quadrate

Jetzt weißt du, wie man die Regressionsfunktion aufstellt. Aber wie bestimmst du nun die konkreten Daten für die Gleichung?

Dafür benötigst du erstmal Daten aus einer Stichprobe . Mache dir das wieder am Beispiel mit dem Prädiktor Körpergröße und dem Kriterium Einkommen deutlich. Angenommen, du hast 100 Leute nach ihrer Größe und ihrem Einkommen befragt. Jede der 100 Personen erhält in deiner Regressionsgraphik jeweils einen Punkt.

Aus dieser entstehenden Punktewolke ermittelst du nun die Gleichung, die das zukünftige Einkommen am besten vorhersagen kann. Dafür zeichnest du durch die Punktewolke die sogenannte Regressionslinie oder auch Vorhersagelinie.

Regression, Regressionsmodell, Regressionslinie, Regressionsgerade, Methode der kleinsten Quadrate, Prädiktor, Kriterium, Punktewolke, Gerade, Graph
direkt ins Video springen
Regressionslinie, die allen Punkten möglichst nah ist
Diese Regressionslinie entspricht der Regressionsgleichung. Du zeichnest sie so ein, dass der Abstand von allen Datenpunkten zu dieser Linie möglichst klein ist. Den Abstand von den Datenpunkten zur Regressionslinie nennst du auch Residuum (Rest).   Dein Ziel ist also, dass die Regressionslinie möglichst nah an vielen Punkten des Streudiagramms liegt. Mathematisch suchst du also die Gleichung, bei der die quadrierten Abweichungen aller Werte von der Geraden minimal sind. Daher kommt auch der Name Methode der kleinsten Quadrate.
Regression, Residuum, Residuen, Regressionsgleichung, Methode der kleinsten Quadrate, Prädiktor, Kriterium, Vorhersage
direkt ins Video springen
Methode der kleinsten Quadrate

Vorhersage und Vorhersagegüte

Spitze! Jetzt hast du gelernt, was das Modell der Regression ist und wie man die Regressionsgerade bestmöglich durch die Daten legt.

Was kannst du jetzt konkret mit deiner Geraden anfangen?

Das Regressionsmodell ist ein Vorhersagemodell. Es geht darum, durch bereits gesammelte Daten des Prädiktors und des Kriteriums Vorhersagen für die Zukunft zu treffen. Für die Prognose muss nur noch der Prädiktor bekannt sein, um das Kriterium zu prognostizieren.

Beispiel:

Mit Hilfe der Methode der kleinsten Quadrate hast du für den Prädiktor Schuhgröße (in cm) und das Kriterium Einkommen (Euro netto) folgende Gleichung aufgestellt:

\hat y = b ⋅ x + a

\hat y = 105 ⋅ x + 10

Hiermit kannst du nun für jede beliebige Schuhgröße das Einkommen vorhersagen. Wenn Anna z.B. 26 cm große Füße hat, erhält sie laut der Vorhersage ein Einkommen von 2.740 Euro netto.

\hat y = 10526 + 10 = 2.740

Die Vorhersage ist allerdings nur eine Schätzung der Realität. Diese Schätzung basiert auf den Daten, mit denen du die Gleichung erstellt hast. Diese Schätzung wird also umso genauer, je mehr Daten aufgenommen werden. Auch durch die Aufnahme weiterer Prädiktoren kann die Vorhersage präziser werden. Du könntest neben der Schuhgröße zum Beispiel die Intelligenz der Leute erfassen, um das Einkommen genauer vorherzusagen. Wenn du mehrere Prädiktoren nutzt, verwendest du das Regressionsmodell der multiplen Regression

Die Schätzungen des Regressionsmodells in der Statistik weichen manchmal mehr und manchmal weniger stark von der Realität ab.

Schau dir dafür einmal folgende zwei Streudiagramme an:

Schätzung, Punktewolke, Messfehler, Schätzfehler, Regression, Regressionsgerade, Regressionslinie, Prädiktor, Kriterium, Regressionsmodell
direkt ins Video springen
Der Prädiktor Intelligenz ist eine genauere Schätzung für das Kriterium Einkommen als der Prädiktor Körpergröße

In beiden Streudiagrammen wird das Einkommen vorhergesagt. Das linke Regressionsmodell hat als Prädiktor Intelligenz. Das rechte Modell hat als Prädiktor die Schuhgröße. Beide haben eine Regressionsgerade, die den Vorhersagewerten möglichst nah ist. Allerdings sind mit dem Prädiktor Intelligenz die Punkte deutlich näher an der Geraden. Die rechte Graphik mit dem Prädiktor Schuhgröße erzeugt eine viel breitere Punktewolke. Die Vorhersage des Einkommens mit der Intelligenz als Prädiktor funktioniert also deutlich besser als mit dem Prädiktor Schuhgröße. Du kannst anhand eines Graphen also schon erkennen, ob eine Schätzung genauer ist (links) oder ungenauer (rechts).

Um zu testen, wie gut die Vorhersage deines Regressionsmodell ist, berechnest du den sogenannten Determinationskoeffizient (R2). Den Determinationskoeffizienten R² erhältst du, indem du die Regressionsvarianz durch die Gesamtvarianz teilst. R² drückt also den Anteil des Kriteriums aus, der mit dem Prädiktor vorhergesagt werden kann. Das Ergebnis ist ein Prozentwert. Du kannst also direkt interpretieren, wieviel Prozent der Varianz des Kriteriums durch den Prädiktor erklärt wird. Wie der Determinationskoeffizient R² genau berechnet wird, erfährst du hier !

Lineare Regression

Klasse! Jetzt weißt du, was das Regressionsmodell ist und welche Faktoren bei der Vorhersage eine Rolle spielen. Wenn du die Modelle der Regression noch genauer kennenlernen willst, schau doch bei unserem Video zur linearen Regression vorbei!

Zum Video: Lineare Regression
Zum Video: Lineare Regression

Hallo, leider nutzt du einen AdBlocker.

Auf Studyflix bieten wir dir kostenlos hochwertige Bildung an. Dies können wir nur durch die Unterstützung unserer Werbepartner tun.

Schalte bitte deinen Adblocker für Studyflix aus oder füge uns zu deinen Ausnahmen hinzu. Das tut dir nicht weh und hilft uns weiter.

Danke!
Dein Studyflix-Team

Wenn du nicht weißt, wie du deinen Adblocker deaktivierst oder Studyflix zu den Ausnahmen hinzufügst, findest du hier eine kurze Anleitung. Bitte .