Video anzeigen

In diesem Beitrag erfährst du alles über Reliabilität als Gütekriterium statistischer Berechnungen. Besonders genau lernst du die Interrater Reliabilität als zentralen Test der Reliabilitätsanalyse kennen. Es werden dir aber auch noch andere Tests für Reliabilität vorgestellt. Außerdem werfen wir einen Blick auf die Verflechtungen aller Gütekriterien, also Objektivität , Reliabilität und Validität .

Wenn du dich also zum Beispiel fragst „Was ist eine gute Reliabilität?“ oder „Was sagt Cronbachs Alpha aus?“, bist du hier genau richtig. Du willst dir das Ganze außerdem lieber in Bild und Ton erklären lassen? Perfekt! Hier geht’s zum Video !

Inhaltsübersicht

Reliabilität Definition 

Reliabilität als Gütekriterium und verschiedene untergeordnete Testverfahren überprüfen und analysieren die Zuverlässigkeit von Messungen bei einer statistischen Erhebung. Ein statistischer Messwert ist per Definition dann reliabel, wenn die Messgenauigkeit von Messinstrumenten oder Ergebnissen besonders hoch ist.

Reliabilitätstypen

Reliabilität setzt sich im Wesentlichen aus drei zentralen Merkmalen zusammen: Stabilität, Konsistenz und Äquivalenz. Stabilität deckt hierbei den zeitlichen Aspekt ab und überprüft damit also die Konstanz bzw. Ähnlichkeit von Messergebnissen zu verschiedenen Zeitpunkten. Ein gängiges Verfahren zur Überprüfung von Stabilität ist die Test-Retest-Methode.

Konsistenz hingegen überprüft, in welchem Umfang Fragen-Items, die dasselbe Merkmal erfassen sollen, dieses auch wirklich zuverlässig gleich erfassen. Testverfahren, die hierbei weiterhelfen, bietet die Konsistenzanalyse mit ihrem Fokus au die innere Konsistenz der Reliabilität, wobei es spezifische Herangehensweisen wie Cronbachs Alpha Reliabilität oder die Split Half Reliabilität gibt.

Zuletzt ist noch die Äquivalenz anzuführen, die ganz allgemein die Gleichwertigkeit von Messungen meint. Die Interrater Reliabilität, die die Gleichwertigkeit in der Auswertung sicherstellt und der Paralleltest, der für Gleichwertigkeit in der Erhebung sorgt, sind hier bekannte Reliabilitätstypen.

Reliabilität Anwendung

Bei empirischen Untersuchungen teilt sich die Anwendung von Tests zur Überprüfung von Gütekriterien wie Reliabilität in zwei Hälften: während der Erhebung und während des Auswertungsprozesses. Schon während der Durchführung einer Ergebung muss man sich Gedanken machen, wie man die Reliabilität am besten sichern will, da bei vielen Tests wie zum Beispiel der Testhalbierungsreliabilität oder dem Paralleltest bereits in der Erhebung eingegriffen wird und Fragebögen gezielt auf die Feststellung von Reliabilität konzipiert werden. Andere Tests, wie beispielsweise Cronbachs Alpha zur Konsistenzanalyse oder der Interrater Reliabilität, setzten im Gegensatz dazu erst im Auswertungsprozess an.

Interrater Reliabilität 

Die Interrater-Reliabilität beschreibt die Abweichungen bzw. Übereinstimmungen zwischen den Bewertenden in der Auswertung von Daten. Die Auswerterübereinstimmung stellt daher eine Verbindung zwischen den beiden Gütekriterien Reliabilität und Objektivität her.

Sie ist ein Maß, welches die Übereinstimmungen in der von mehreren Personen durchgeführten Datenauswertung und Dateninterpretation festhalten soll. Geht man von einer vollkommen objektiven Auswertung und Interpretation aus, ist sie vollständig erfüllt.

Die Interrater-Reliabilität kann beispielsweise bei Milieustudien oder der Zuordnung von Befragten in vorher festgelegte Kategorien, die auf erfragten Merkmalen der Testpersonen basieren, ausschlaggebend werden. Ein weiteres wichtiges Anwendungsfeld ist die Diagnostik in der Psychologie. Zusammenfassend kann man festhalten, dass es sich um eine Maßeinheit für interindividuelle Objektivität handelt.

Interrater Reliabilität, Cohens Kappa
direkt ins Video springen
Reliabilität  

Interrater Reliabilität berechnen

Die Berechnung beziehungsweise Bestimmung findet im Normalfall nicht per Hand statt, kann aber natürlich auch rechnerisch über eine Formel gelöst werden. Besser ist es jedoch, bei der Bewertung von Interrater Reliabilität SPSS oder Microsoft Excel zur Hilfe zu nehmen. Möchte man also herausfinden, wie hoch die Auswerterübereinstimmung bei einer bestimmten Erhebung ist, wirft man einen Blick auf die Daten und benutzt den Koeffizienten Cohens Kappa, der geeignet ist, wenn genau zwei Rater an der Auswertung beteiligt sind.

Cohens Kappa

Die Formel für den Koeffizienten Cohens Kappa, mit dem man die Übereinstimmung zweier Beobachter berechnet, kann in diesen Schreibweisen auftauchen:

Fall 1: k=(n_a-n_e)/(n-n_e )

Fall 2: k=(p_a-p_e)/(1-p_e )

Cohens Kappa berechnen, Cohens Kappa Excel
direkt ins Video springen
Interrater Reliabilität Formel

Zur Anwendung greift man wie bereits erwähnt auf Hilfsmittel wie eine Excel-Tabelle zurück. Im Folgenden soll ein Beispiel kurz illustrieren, welche Herangehensweise dabei sinnvoll ist.

Cohens Kappa Excel

Auf Grundlage einer gemeinsam durchgeführten Erhebung mit Frage-Items zum Thema „Gewalt bei Jugendlichen“ sollen zwei Rater 50 Probanden anschließend den Kategorien „hohe Gewaltbereitschaft“, „mittlere Gewaltbereitschaft“ und „niedrige Gewaltbereitschaft“ zuordnen.

Die Rater ordnen 43 Probanden einer identischen Kategorie zu und kommen hingegen bei 7 Probanden zu jeweils unterschiedlichen Einschätzungen. Die genauen Übereinstimmungen bzw. Abweichungen hält man in einem ersten Schritt in einer Excel-Kreuztabelle fest und präpariert die Zellen dabei so, dass am Ende alle Spalten- und Zeilensummen sowie die Gesamtsumme, die logischerweise der Stichprobengröße von 50 entsprechen muss, an den Rändern der Tabelle angezeigt werden.

In einem nächsten Schritt stellt man die Weichen zur Berechnung des gesuchten Koeffizienten, in diesem Fall also Cohens Kappa. In einer ersten gesonderten Zeile führt man zuerst nochmals die Übereinstimmungen pro Kategorie auf (man hinterlegt also die Zellen aus der Kreuztabelle, damit im Falle von dortigen Änderungen die Daten angepasst werden) und summiert diese zur Gesamtübereinstimmung der bereits erwähnten 43 Fälle auf.

         
Bewerter 2 / Bewerter 1 hohe Gewaltbereitschaft mittlere Gewaltbereitschaft niedrige Gewaltbereitschaft Gesamt
hohe Gewaltbereitschaft 19 1 0 20
mittlere Gewaltbereitschaft 1 14 3 18
niedrige Gewaltbereitschaft 0 2 10 12
Gesamt 20 17 13 50
Übereinstimmung 19 14 10 43
Zufällige Übereinstimmung 8 6.12 3.12 17.24
Cohens Kappa 0.78632478632479

Schritt 3 verlangt noch die Berechnung eines letzten wichtigen Parameters: der zufälligen Übereinstimmung. Diese muss für jede der 3 Kategorien einzeln ermittelt werden. Benötigt werden für die Berechnung lediglich die Spalten- bzw. Zeilensummen der jeweiligen Kategorie und die Gesamtsumme. Hat man dann für alle Kategorien die zufälligen Übereinstimmungen ermittelt, summiert man diese ebenfalls auf.

Interrater Reliabilität berechnen, Cohens Kappa berechnen, Cohens Kappa Tabelle
direkt ins Video springen
Cohens Kappa berechnen

Zum Verständnis sind in dieser Liste alle Excel-Befehle aufgelistet, die man zur Erstellung einer solchen Tabelle braucht:

Zelle Gegenstand Formel
B9 Übereinstimmungen für hohe Gewaltbereitschaft "=B3"
B10 Zufällige Übereinstimmung hohe Gewaltber. "=(B6/E6)*(E3/E6)*E6"
E6 Anzahl aller Probanden "=SUMME(B3;B4;B5;C3;C4;C5;D3;D4;D5)"
E9 Übereinstimmungen gesamt "=SUMME(B9:D9)"
E10 Zufällige Übereinstimmung gesamt "=SUMME(B10:D10)"
B13 Cohen's Kappa "=(E9-E10)/(E6-E10)"

Cohens Kappa berechnen

Für die Berechnung von Cohens Kappa sind nun alle notwendigen Werte vorhanden. Diese müssen dann nur noch in die Formel eingesetzt werden. Man kann hier entweder mit den absoluten Zahlen oder den relativen Häufigkeiten arbeiten, das Ergebnis ist im Endeffekt dasselbe.

Fall 1: k=(n_a-n_e)/(n-n_e )=(43-17,24)/(50-17,24)=0,786

Fall 2: k=(p_a-p_e)/(1-p_e )=(0,86-0,3448)/(1-0,3448)=0,786

Zur Einordnung kann man den Koeffizienten nun an der systematisierten Tabelle von Landis und Koch (1977) überprüfen.

Cohens Kappa Stärke der Übereinstimmung
<0,00 Poor
0,00-0,20 Slight
0,21-0,40 Fair
0,41-0,60 Moderate
0,61-0,80 Substantial
0,81-1,00 Almost Perfect

Für das gewählte Beispiel lässt sich also eine substantielle Übereinstimmung für die Interrater-Reliabilität feststellen.

Soll die Interrater-Reliabilität für mehr als zwei Ratern bestimmt werden, wird im Gegensatz zu Cohens Kappa dann auf einen Koeffizienten namens Fleiss Kappa zurückgegriffen.

Reliabilität Validität

Während in den vorhergehenden Abschnitten mit der Berechnung von Interrater-Reliabilität über Cohens Kappa nun ausführlich auf die Beziehung zwischen Reliabilität und Objektivität eingegangen wurde, soll nun der Fokus darauf gelenkt werden, wie Validität Reliabilität beeinflussen kann. Ein probates Mittel, um hierzu zu Erkenntnissen zu gelangen, ist die Konsistenzanalyse.

Interne Konsistenz Reliabilität

Bei einer sogenannten Konsistenzanalyse soll die interne Konsistenz der verwendeten Frage-Items überprüft werden. Das bedeutet konkret, dass die Korrelation eines einzelnen Items, also einer einzigen Frage des Fragenkatalogs, mit anderen Items der gleichen Kategorie festgestellt wird. Dieses detaillierte und aufwendige Vorgehen macht die Konsistenzanalyse zu einem der zuverlässigsten Verfahren, um Aussagen darüber zu treffen zu können, wie reliabel ein Test ist. Je höher der Zusammenhang zwischen den einzelnen Fragen-Items bei der Konsistenzanalyse ausfällt, desto zuverlässiger messen die Frage-Items und desto höher ist die Reliabilität des Tests.

Cronbachs Alpha Reliabilität

Um eine Konsistenzanalyse auch praktisch durchführen zu können, gibt es spezielle Verfahren. Ein häufig verwendeter und wichtiger Kennwert ist Cronbachs Alpha, das zur Schätzung der internen Konsistenz beitragen kann. In Worten formuliert zeigt Cronbachs Alpha  die Höhe des Anteils der wahrheitsgetreuen Score-Varianz an der beobachteten Score-Varianz an. Die Formel sieht folgendermaßen aus:

\alpha=n/(n-1)\cdot(1-(\sum\of\begin s^2\ (X_i)〗)/(s^2 (Y)))

Im Gegensatz zu Cohens Kappa ist hier eine Kalkulation per Hand nicht mehr zu empfehlen. Cronbachs Alpha lässt man sich am besten über das Statistikprogramm SPSS ausgeben.

Split Half Reliabilität

Als weiteres Hilfsmittel zur Feststellung interner Konsistenz fungiert die Testhalbierungsreliabilität. Diese Methode teilt einen ausgewählten Test bzw. Fragenkatalog in zwei Hälften, um zwischen diesen dann Korrelationen zu messen. Die Messung gewinnt an Genauigkeit, je höher der Zusammenhang zwischen beiden Teilen ausfällt. Voraussetzung zur Anwendung dieser Methode ist, dass genügend Frage-Items bestehen, um in zwei wesentliche Hälften zu unterteilen. Zudem dürfen nur Items, die dasselbe Merkmal erfassen sollen, miteinander in Korrelation gebracht werden.

Reliabilitäts-Validitäts-Dilemma

Eine Problematik, die im Zuge von Konsistenzanalysen auftreten kann, ist das sogenannte Reliabilitäts-Validitäts-Dilemma. Beide in den vorhergehenden Abschnitten erklärten Methoden, also Cronbachs Alpha und die Testhalbierungsreliabilität dienen meist dem Zweck, Items aus den Fragekatalogen zu eliminieren, die keine hohe Korrelation mit den anderen Items aufweisen. Während dies zwar die interne Konsistenz und somit die Reliabilität der Messung erhöht, leidet gleichzeitig die Validität, da der Fragenkatalog zu homogen wird. Hier ist dann das Feingefühl des Forschers gefragt, der feststellen muss, ob ein niedrig korrelierendes Item tatsächlich schlechte Messungen produziert, oder aber vielleicht einfach ein anderes Merkmal misst und daher doch erhalten bleiben sollte.

Retest Reliabilität 

Wie der Name bereits verrät, wird bei dem auch als Test-Retest-Methode bezeichneten Verfahren ein Test bzw. ein Fragebogen mehrmals wiederholt bzw. eingesetzt. Der Vorteil dieses Vorgehens besteht darin, dass es durch die Wiederholung der Messung Aussagen über die Zuverlässigkeit eines Messinstruments oder Messverfahrens ermöglicht. Andererseits wirft die Technik der Test-Retest-Methode in der Praxis auch einige Probleme auf. Zur Überprüfung von Messinstrumenten, die eher instabile Merkmale wie Emotionen oder Zufriedenheit erfassen, ist diese Vorgehensweise nicht geeignet. Auch für Wissen abfragende Fragekataloge wie zum Beispiel Intelligenz- oder Mathetests, bei denen im Falle mehrfacher Durchführung Lerneffekte auftreten könnten, sollte man die Messgenauigkeit auf andere Art und Weise überprüfen. Zudem kann es aus Zeit- oder Geldgründen oft schwer realisierbar sein, alle Befragten für eine zweite Testrunde zurückzugewinnen.

Test-Retest, Retest-Methode, Retest Reliabilität
direkt ins Video springen
Test-Retest-Methode für Reliabilität

Paralleltest Reliabilität 

Eine letzte Option zur Überprüfung der Zuverlässigkeit der Messinstrumente bietet der Paralleltest. Er ist allerdings praktisch sehr schwer umzusetzen, da man einen zweiten, nicht-identischen Fragenkatalog mit derselben Fehlervarianz erstellen muss, dessen Items dasselbe Merkmal messen wie der erste Katalog. Da nicht nur die Gleichwertigkeit der beiden Tests schwer zu realisieren ist, sondern auch wieder mögliche Lerneffekte der Probanden auftreten können, ist die gute Umsetzbarkeit des Paralleltests zumindest fragwürdig.

Objektivität Reliabilität Validität

Der Beitrag hat sich nun ausführlich damit beschäftigt, welche verschiedenen Möglichkeiten es gibt, Reliabilität zu testen und wie sie einerseits im Zusammenspiel mit Objektivität und andererseits mit Validität einzuschätzen ist. Abschließend lässt sich über die Gütekriterien zusammenfassen: Reliabilität gibt die Zuverlässigkeit und Genauigkeit von Messungen an, Validität die Gültigkeit, also dass eine Messung auch das zu untersuchende Merkmal erfasst, und Objektivität die Unabhängigkeit der Forscher.

Hallo, leider nutzt du einen AdBlocker.

Auf Studyflix bieten wir dir kostenlos hochwertige Bildung an. Dies können wir nur durch die Unterstützung unserer Werbepartner tun.

Schalte bitte deinen Adblocker für Studyflix aus oder füge uns zu deinen Ausnahmen hinzu. Das tut dir nicht weh und hilft uns weiter.

Danke!
Dein Studyflix-Team

Wenn du nicht weißt, wie du deinen Adblocker deaktivierst oder Studyflix zu den Ausnahmen hinzufügst, findest du hier eine kurze Anleitung. Bitte .