Boxplot interpretieren
Du möchtest wissen, wie du einen Boxplot interpretierst? Hier und im Video zeigen wir dir, wie du die wichtigsten Elemente eines Boxplots richtig deutest.
Inhaltsübersicht
Boxplot interpretieren — Grundlagen
Ein Boxplot ist eine grafische Darstellung in der Statistik, die die Verteilung von Daten visualisiert. Du nutzt ihn, um auf einen Blick die Streuung, Lage und Ausreißer deiner Daten zu erkennen. Dadurch siehst du zum Beispiel, wie weit die Daten auseinander liegen und wo der Großteil der Datenpunkte liegt.
Wichtig: Ein Boxplot benötigt mindestens ordinalskalierte Daten, besser noch metrische Daten. Das heißt, du kannst damit zum Beispiel Messwerte oder Umfrageergebnisse analysieren. Kategorien (Nominalskalenniveau), wie das Geschlecht oder Marken, sind für Boxplots nicht geeignet.
Boxplot interpretieren — Bestandteile
Um einen Boxplot zu interpretieren, schaust du dir vor allem die einzelnen Bestandteile an. Denn die enthalten wichtige Informationen über deine Daten.
Schauen wir uns das an einem Beispiel an:
Angenommen, du hast die folgenden 13 Werte für die Größe von Pflanzen in cm gemessen: 15, 18, 20, 21, 22, 23, 23, 24, 25, 28, 30, 30, 45. In einem Boxplot sieht das so aus:
Im Folgenden zeigen wir dir, was du von diesem Boxplot ablesen kannst und wie du die Werte interpretierst.
Die Box — Quartile und Interquartilsabstand
Die Quartile teilen deine Daten in vier gleiche Teile. Du erkennst sie auch in der Box vom Boxplot: Das 1. Quartil (q1) ist das untere Ende der Box. Es liegt bei 21 cm. Darunter befinden sich 25 % der Daten. Das heißt, dass 25 % der Pflanzen kleiner sind als 21 cm. Das 3. Quartil (q3) ist das obere Ende der Box und liegt bei 28 cm. 25 % der Daten liegen hier darüber.
Die Länge der Box ist der Interquartilsabstand (IQR) — also der Bereich zwischen q1 und q3. Das bedeutet, dass sich dazwischen 50 % der Daten befinden. In unserem Beispiel sind also 50 % der Pflanzen zwischen 21 und 28 cm groß.
Die Lage der Box auf der Achse zeigt, in welchem Bereich die meisten Werte liegen. Wenn die Box weiter oben an der Achse liegt, haben 50 % aller Daten höhere Werte. Das ist nützlich, wenn du mehrere Boxplots vergleichst und wissen willst, welche Gruppe oder Bedingung höhere Messwerte hat. Je länger außerdem die Box ist (großer IQR), desto größer ist auch die Streuung in den Daten. Das heißt, dass die Versuchspersonen/-objekte sich im untersuchten Merkmal stark unterscheiden. Bei einer kurzen Box sind sie sich hingegen sehr ähnlich.
Median
Der Median ist der Querstrich innerhalb der Box. Er teilt deinen Datensatz in zwei gleich große Hälften. Es befinden sich also 50 % der Daten über und 50 % der Daten unter dem Median. Deshalb entspricht der Median auch dem 2. Quartil (q2). In unserem Beispiel ist der Median 23 cm. Das heißt, die Hälfte der Pflanzen ist kleiner und die andere Hälfte ist größer als 23 cm.
Übrigens: Manchmal wird dir im Boxplot auch eine gestrichelte Linie dargestellt. Das ist dann der Mittelwert.
Die Lage des Medians verrät dir die Art der Verteilung. Liegt er genau in der Mitte, ist die Verteilung symmetrisch. Ist der Median jedoch weiter oben in der Box, ist die Verteilung rechtssymmetrisch. Für eine linkssymmetrische Verteilung liegt der Median weiter unten.
Antennen (Whisker)
Die Antennen zeigen den maximalen und den minimalen Wert der Daten, wenn es keine Ausreißer gibt. Sie gehen nämlich bis zum ersten bzw. letzten Punkt, der innerhalb von 1,5 IQR liegt.
In unserem Beispiel-Datensatz liegt der kleinste Wert bei 15 cm. Bis dahin reicht auch der untere Whisker. Das liegt innerhalb von 1,5 IQR, weshalb es der Minimalwert ist. Der obere Whisker geht bis zum höchsten Wert innerhalb von 1,5 IQR — nämlich 30 cm. Das ist aber nicht der Maximalwert, da es einen Ausreißer gibt.
Die Antennen geben dir ebenfalls Aufschluss über die Art der Verteilung. Sind sie länger, bedeutet es, dass die Verteilung flach und breit ist. Kurze Antennen deuten auf eine spitze Verteilung hin. Sind die Antennen unterschiedlich lang, kann das auf eine rechts- oder linksschiefe Verteilung hinweisen.
Ausreißer
Ausreißer sind Datenpunkte, die weit von den anderen entfernt liegen. In unserem Beispiel sind 45 cm ein Ausreißer, weil dieser Wert deutlich größer ist als der Rest der Daten.
Bei den Ausreißern unterscheidest du zwischen einfachen und extremen Ausreißern:
- Einfache Ausreißer: Einfache Ausreißer liegen mehr als 1,5-mal den IQR vom oberen oder unteren Quartil entfernt. Die werden meist als Punkte bzw. Kreise dargestellt.
- Extreme Ausreißer: Extreme Ausreißer liegen mehr als 3-mal den IQR entfernt. Sie erkennst du an einem Sternchen.
Ausreißer können auf Ungereimtheiten in den Daten hinweisen, da sie sich stark vom Rest unterscheiden. Es kann sich um einen Messfehler handeln oder um einen authentischen Datenpunkt. Daher musst du gründlich überlegen, ob der Wert Sinn ergibt, bevor du ihn möglicherweise ausschließt.
Boxplot interpretieren — häufigste Fragen
-
Wie kann man einen Boxplot interpretieren?
Du kannst einen Boxplot interpretieren, indem du die Lage und Streuung der Daten analysierst. Der Median zeigt den mittleren Wert, die Box den Interquartilsabstand und die Antennen die Spannweite. Ausreißer werden als Punkte außerhalb der Antennen dargestellt und geben den Minimal- und Maximalwert an, wenn es welche gibt.
-
Was kann man aus dem Boxplot ablesen?
Aus einem Boxplot kannst du die Verteilung der Daten, die Streuung und die Lage der mittleren 50 % ablesen. Außerdem siehst du den Median und erkennst Ausreißer, die auf ungewöhnliche Datenpunkte oder Messfehler hinweisen können.
-
Wie wird der Median im Boxplot angegeben?
Der Median wird im Boxplot als Querstrich innerhalb der Box dargestellt. Er teilt die Daten in zwei gleich große Hälften und zeigt den mittleren Wert, um den sich die Daten verteilen.
Histogramm
Ein Boxplot zeigt dir zwar die wichtigsten Lagemaße, aber keine Häufigkeiten. Dafür brauchst du ein Histogramm. Wie du das erstellst und interpretierst, zeigen wir dir hier!