Induktive Statistik

Residuen



Du möchtest verstehen, was Residuen sind und warum sie möglichst klein sein sollen? Dann bist du in diesem Beitrag genau richtig!

Keine Lust zu lesen? Lehn dich zurück und erfahre in unserem Video ganz entspannt alles wichtige über Residuen.

Inhaltsübersicht

Residuen einfach erklärt

Residuen sind die Abweichung zwischen dem durch die Regressionsgleichung vorhergesagten Wert \hat y_k und dem tatsächlich beobachteten Wert y_k in einer Regressionsanalyse . Ein Residuum sagt folglich aus, wie weit du bei der Schätzung eines Kriteriumswerts daneben lagst. Angenommen du sagst etwa für eine Person ein Körpergewicht von 63 kg vorher, in Wahrheit wiegt die Person jedoch 66 kg, dann hättest du ein Residuum von \hat e_k= \hat y_k - y_k = 66 kg - 63kg =  3kg . Residuen sollen stets möglichst klein sein, um eine exakte Vorhersage der Kriteriumswerte zu erhalten.

Residuum Formel

Bei der Ermittlung der bestmöglichen Regressionsgleichung wird deshalb mathematisch versucht, die Residuen zu minimieren. Das geschieht mit Hilfe der Methode der kleinsten Quadrate. Allerdings werden die Residuen mit dieser Methode zwar minimiert, deine Vorhersage wird aber dennoch nicht perfekt sein. Wie groß die Residuen trotzdem noch werden, hängt dabei vor allem vom Zusammenhang zwischen den Prädiktoren und dem Kriterium ab: Je stärker der Zusammenhang, desto genauer ist die Vorhersage und desto kleiner werden die Residuen. 

Mathematisch notierst du ein Residuum so: 

Formel

\hat e_k= \hat y_k - y_k 

e_k – Residuum für den Prädiktorwert k
\hat_y_k – vorhergesagter Kriteriumswert 
y_k – tatsächlich beobachteter Kriteriumswert 

Grafische Veranschaulichung 

Mit Hilfe eines Streudiagramms und der Regressionsgeraden kannst du dir Residuen bildlich veranschaulichen: 

%Streudiagramm mit eingezeichnetem Abstand Punktwolke und Regressionsgerade

Ein Residuum ist der senkrechte Abstand zwischen der Regressionsgeraden und einem beobachteten Messwert. Es zeigt dir also für einen bestimmten Prädiktorwert die Differenz zwischen dem vorhergesagten Wert \hat y_k (Punkt auf der Regressionsgerade) und dem tatsächlich beobachteten Wert y_k (Punkt aus der Punktwolke). Residuen können dabei positiv oder negativ sein – abhängig davon, ob der beobachtete Wert über oder unter der Regressionsgerade liegt.

%Beispiel positiver und negativer Abstand

Eigenschaften 

Der Erwartungswert von Residuen ist stets 0. Das liegt daran, dass die Regressionsgerade so in die Punktwolke der Messwerte hineingelegt wird, dass sich die Residuen symmetrisch um die Regressionsgerade verteilen. Dadurch gleichen sich positive und negative Residuen zu 0 aus. 

E(\hat e_k) = E(\hat y_k - y_k) = 0 

Für Residuen müssen bei der linearen Regression zudem einige weitere wichtige Annahmen gelten. Etwa ist es wichtig, dass die Residuen normalverteilt und unkorreliert sind. Eine ebenfalls wichtige Annahme ist die Homoskedastiziät. Das bedeutet, dass die Varianz der Residuen immer gleich ist und nicht mit dem vorhergesagten Wert zusammenhängt. 

%extra Artikel zu Annahmen der Regression? Sprengt bisschen den Rahmen dieses Artikels

Varianzzerlegung

Residuen bilden zudem die Grundlage zur Varianzzerlegung bei der Regressionsanalyse. Vielleicht hast du bereits davon gehört, dass sich die Varianz der abhängigen Variable bei der Regressionsanalyse in mehrere Komponenten aufteilen lässt. Diese Komponenten sind zum einen ein Teil der Varianz, der mit Hilfe der Prädiktoren erklärt werden kann und ein Teil, der nicht aufgeklärt werden kann. 

Mit Hilfe der Residuen kannst du den Teil der Varianz schätzen, der nicht mit den Prädiktoren aufgeklärt werden konnte: 

Residualvarianz

s^2_{\hat y - y} = \frac{1}{n}\sum(\hat y_k - y_k)^2

s^2_{\hat y - y} – Residualvarianz 
\hat y_k – vorhergesagter Kriteriumswert 
y_k – beobachteter Kriteriumswert 

 Je nach dem, wie groß der Anteil dieser sogenannten Residualvarianz an der gesamten Varianz deiner abhängigen Variable ist, konntest du das Kriterium mehr oder weniger gut vorhersagen. 

Wenn du noch mehr über die Varianzerlegung erfahren möchtest, dann sieh dir unseren Beitrag zum Bestimmtheitsmaß an.


Andere Nutzer halten diese Inhalte aus dem Bereich „Induktive Statistik“ für besonders klausurrelevant

Hallo, leider nutzt du einen AdBlocker.

Auf Studyflix bieten wir dir kostenlos hochwertige Bildung an. Dies können wir nur durch die Unterstützung unserer Werbepartner tun.

Schalte bitte deinen Adblocker für Studyflix aus oder füge uns zu deinen Ausnahmen hinzu. Das tut dir nicht weh und hilft uns weiter.

Danke!
Dein Studyflix-Team

Wenn du nicht weißt, wie du deinen Adblocker deaktivierst oder Studyflix zu den Ausnahmen hinzufügst, findest du hier eine kurze Anleitung. Bitte lade anschließend die Seite neu.