Was ist der Unterschied zwischen überwachtem und unüberwachtem Lernen?

Überwachtes Lernen nutzt Trainingsdaten mit bekannten „richtigen“ Ausgaben (Labels), während unüberwachtes Lernen nur Eingabedaten ohne vorgegebene Ausgaben bekommt. Beim überwachten Lernen lernt das Modell also, Eingaben gezielt auf Labels abzubilden, beim unüberwachten Lernen soll es selbst Strukturen oder Gruppen in den Daten finden.

Was sind Labels beim überwachten Lernen?

Labels sind die vorgegebenen Ausgabewerte, mit denen Trainingsdaten beim überwachten Lernen „beschriftet“ sind. Sie sagen dem Algorithmus, welches Ergebnis zu welcher Eingabe gehört, zum Beispiel „Apfel“ zu einem Bild eines Apfels. Dadurch kann das Modell Zusammenhänge zwischen Eingaben und gewünschten Ausgaben lernen.

Woran erkennt man, ob ein Problem Klassifikation oder Regression ist?

Ein Problem ist Klassifikation, wenn man aus festen Kategorien auswählen soll, und Regression, wenn man einen Zahlenwert vorhersagen soll. Kategorien sind zum Beispiel „Spam“ oder „kein Spam“ beziehungsweise „gesund“ oder „krank“. Ein Zahlenwert ist zum Beispiel ein Preis oder ein erwarteter Umsatz.

Warum trennt man Trainingsdaten und Testdaten beim überwachten Lernen?

Trainingsdaten und Testdaten trennt man, damit man prüft, ob das Modell auch bei neuen, unbekannten Daten richtig vorhersagt und nicht nur die Trainingsbeispiele „auswendig lernt“. In der Testphase sind die Labels zwar vorhanden, aber für das Modell nicht direkt sichtbar. So lässt sich die Genauigkeit realistisch messen.

Video

Hier geht's zum Video „Decision Tree“

Hier geht's zum Video „Neuronale Netze“

Hier geht's zum Video „Lineare Regression“

Hier geht's zum Video „Unüberwachtes Lernen“

Hier geht's zum Video „Deep Learning“

Zurück zum Text

Weiter lernen Empfohlenes passendes Video

Überwachtes Lernen

Wichtige Inhalte in diesem Video

Was ist überwachtes Lernen?

(00:18)

Wie funktioniert überwachtes Lernen?

(01:00)

Testphase

(01:34)

Überwachtes Lernen — Anwendung

Überwachtes Lernen — Herausforderungen

(04:15)

Hast du dich schon einmal gefragt, wie dein Smartphone deine E-Mails sortiert oder wie Online-Shops dir Produkte vorschlagen? Dahinter steckt das überwachte Lernen. Wie das funktioniert, zeigen wir dir hier und im Video!

Inhaltsübersicht

Was ist überwachtes Lernen?

im Videozur Stelle im Video springen

(00:18)

Überwachtes Lernen (engl.: Supervised Learning) ist eine Methode im Bereich des maschinellen Lernens, die dazu verwendet wird, eine künstliche Intelligenz (KI) zu formen. Dabei wird ein Computeralgorithmus mit einer großen Menge von Daten gefüttert, die bereits korrekt beschriftet (gelabelt) sind.

Durch diese Labels wird dem Algorithmus quasi vorgegeben, welches Ergebnis er bei einer bestimmten Eingabe liefern soll. Das Ziel ist es, dass er aus diesen Beispielen lernt, welche Zusammenhänge zwischen den Daten und den Beschriftungen bestehen. Diese Muster soll er dann bei neuen, unbekannten Daten richtig anwenden.

Die Methode des überwachten Lernens wird häufig eingesetzt, wenn Vorhersagen getroffen oder Daten automatisch klassifiziert werden sollen. Beispiele sind die Erkennung von E-Mails als „Spam“ oder „kein Spam“, die Analyse von Bildern, um Gesichter zu erkennen, oder die Vorhersage von Umsätzen.

Wie funktioniert überwachtes Lernen?

im Videozur Stelle im Video springen

(01:00)

Wie bei allen Formen des maschinellen Lernens basiert das überwachte Lernen auf einer Trainingsphase. Dabei wird der Algorithmus mit einer großen Menge an Eingabedaten gefüttert, die auch die gewünschten Ausgabedaten (Label) enthalten.

Wollen wir zum Beispiel ein Modell erstellen, dass verschiedene Obstsorten klassifiziert, können die Eingabedaten viele Bilder von Obstsorten sein, die bereits mit „Apfel“, „Banane“ oder „Birne“ beschriftet (gelabelt) sind.

Übrigens: Eingabedaten müssen aber nicht immer Bilder sein — auch Text oder Datensätze sind möglich.

Das Schaubild erklärt überwachtetes Lernen, bei dem ein Modell mit beschrifteten Daten trainiert wird, um unbekannte Daten korrekt zuzuordnen. Am Beispiel von Obst wird gezeigt, wie das trainierte Modell neue Bilder als Apfel, Birne oder Banane klassifiziert. — Überwachtes Lernen

Während des Trainings sucht der Algorithmus nun in den Daten nach Mustern und Zusammenhängen zwischen den Eingabedaten und den Ausgabedaten — bspw. den Obstsorten. Dabei wird der Algorithmus so lange angepasst und optimiert, bis er die zugrunde liegenden Beziehungen möglichst genau abbilden kann.

Studyflix vernetzt: Hier ein Video aus einem anderen Bereich

Nach Beantwortung speichern wir deine Antwort, um Studyflix zu verbessern. Mehr dazu erfährst du in unserer Datenschutzerklärung.

Testphase

im Videozur Stelle im Video springen

(01:34)

Um sicherzustellen, dass der Algorithmus die Muster nicht nur für den speziellen Datensatz auswendig lernt, folgt nach der Trainingsphase eine Testphase. Dabei erhält er einen neuen Datensatz, bei denen das Label (Ausgangsdaten) zwar vorhanden, aber für ihn nicht direkt ersichtlich ist. Er muss eine eigene Entscheidung treffen, um welches Obst es sich handelt und vergleicht seine Vorhersage mit dem tatsächlichen Ergebnis.

Während dieses Prozesses wird die Genauigkeit des Algorithmus ständig gemessen und optimiert. Ziel ist es, dass der Algorithmus nach der Testphase in der Lage ist, auf völlig neue, unbekannte Daten möglichst präzise Vorhersagen zu treffen — in unserem Beispiel die korrekte Identifizierung der Obstsorte.

Überwachtes Lernen — Anwendung

im Videozur Stelle im Video springen

(02:33)

Überwachtes Lernen wird hauptsächlich für zwei Arten von Problemstellungen eingesetzt: Klassifizierung und Regression.

Klassifizierung

im Videozur Stelle im Video springen

(02:42)

Bei der Klassifikation geht es darum, Objekte oder Daten in bestimmte Kategorien einzuordnen. Ein Klassifizierungsalgorithmus analysiert dabei die Eingabedaten und teilt sie in vorab festgelegte Kategorien ein — wie in unserem Obst-Beispiel von eben. Weitere Beispiele für solch eine Problemstellung wäre die Diagnose von Patienten als „gesund“ oder „krank“ oder die Unterteilung von Kundenfeedback in „positiv“ oder „negativ“.

Zu den Klassifizierungsalgorithmen, die für solche Aufgaben eingesetzt werden, gehören:

Entscheidungsbäume (Decision Tree): Beim Entscheidungsbaum werden Entscheidungen basierend auf einer Reihe von Ja-/Nein-Fragen getroffen. Jede Frage teilt die Daten weiter auf, bis eine Klassifikation erreicht ist. Im Patienten-Beispiel könnte eine Entscheidung aussehen wie: „Ist der Cholesterinspiegel höher als ein bestimmter Wert?“, gefolgt von weiteren Fragen.
K-Nearest Neighbors (KNN): Dieser Algorithmus klassifiziert einen neuen Datenpunkt basierend auf den Kategorien der „nächstgelegenen“ Datenpunkte in seinem Umfeld. Bei einem Patienten mit bestimmten Gesundheitswerten würde der Algorithmus also schauen, wie ähnliche Patienten zuvor kategorisiert wurden, und daraus eine Entscheidung ableiten.
Support Vector Machines (SVM): Der SVM-Lernalgorithmus sucht nach einer Grenzlinie, die die Daten am besten in ihre jeweiligen Klassen trennt. Er versucht, den Abstand zwischen den Klassen möglichst groß zu halten, um eine klare Unterscheidung zu treffen.
Neuronale Netze: Neuronale Netze sollen die Funktionsweise des menschlichen Gehirns nachahmen und bestehen aus miteinander verbundenen Knoten. Die eingegebenen Daten werden verarbeitet, indem sie mehrere Schichten dieser Knoten durchlaufen.

Regression

im Videozur Stelle im Video springen

(03:16)

Neben der Klassifizierung ist die Regression die zweite wichtige Problemstellung. Sie beschäftigt sich mit der Vorhersage kontinuierlicher Werte. Das bedeutet, dass der Algorithmus nicht eine Klasse auswählt, sondern einen genauen Zahlenwert vorhersagt. Daher wird die Regression oft für Prognosen oder Trends verwendet. Ein Beispiel wäre die Vorhersage eines Verkaufspreises für ein Haus oder die Schätzung zukünftiger Umsätze.

Auch hier gibt es bestimmte Lernalgorithmen, die bei Regressionen zum Einsatz kommen:

Lineare Regression: Hier versucht der Algorithmus, eine gerade Linie zu finden, die die Beziehung zwischen den Eingabedaten und den Ausgabewerten beschreibt. Sie kann aber nur angewendet werden, wenn es nur eine unabhängige Variable gibt. Zum Beispiel könnte der Preis eines Hauses linear mit seiner Wohnfläche steigen.
Multiple lineare Regression: In der Realität beeinflussen jedoch oft mehrere Faktoren den Preis eines Hauses, und die multiple lineare Regression berücksichtigt das. So könnte der Preis nicht nur von der Wohnfläche, sondern auch von der Lage, der Anzahl der Zimmer und der Nähe zu Schulen abhängen.
Random Forest: Dieser Algorithmus nutzt mehrere unkorrelierte Entscheidungsbäume, die jeweils mit einem anderen Teil des Datensatzes trainiert wurden. Schließlich werden deren Ergebnisse kombiniert, um eine präzisere Vorhersage zu treffen.

Das Bild vergleicht Klassifikation und Regression im maschinellen Lernen, indem Klassifikation als Einteilung von Daten in feste Gruppen und Regression als Vorhersage kontinuierlicher Werte dargestellt wird. Es verdeutlicht damit den grundlegenden Unterschied zwischen kategorialen und stetigen Vorhersageaufgaben. — Klassifikation vs. Regression

Gut zu wissen: Einige Lernmethoden können für die Klassifizierung und für die Regression verwendet werden. Dazu gehören die neuronalen Netze, die Support Vector Machines und der Random Forest.

Überwachtes Lernen — Beispiele

Überwachtes Lernen spielt in vielen Bereichen eine zentrale Rolle. Denn es kann riesige Mengen komplexer Daten schneller und genauer analysieren als ein Mensch es könnte.

Beispiele für die Einsatzbereiche von überwachtem Lernen sind:

Medizinische Diagnostik:
In der Medizin werden mit überwachtem Lernen trainierte Programme eingesetzt, um Krankheiten frühzeitig zu erkennen oder Diagnosen zu verbessern. Die Algorithmen werden anhand medizinischer Bilder wie Röntgenaufnahmen oder MRTs dazu trainiert, bestimmte Krankheiten wie Krebs zu erkennen.
Marketing:
Im Bereich des Marketings wird überwachtes Lernen verwendet, um personalisierte Werbung zu erstellen. Online-Shops und Streamingdienste nutzen sie, um das Verhalten von Nutzern auf Webseiten oder in Apps zu analysieren. Auf Basis von Informationen wie bisheriges Suchverhalten, angeklickte Artikel oder frühere Käufe werden dem Nutzer passende Produkte vorgeschlagen.
Finanzwesen:
Auch im Finanzwesen spielt überwachtes Lernen eine Rolle, insbesondere bei der Betrugserkennung. Kreditkartenunternehmen und Banken identifizieren damit verdächtige Transaktionen. Hier analysiert der Algorithmus Eingabedaten wie den Ort, an dem die Karte verwendet wurde, die Höhe der Transaktion, das Kaufmuster des Nutzers und weitere Faktoren.

Überwachtes Lernen — Herausforderungen

im Videozur Stelle im Video springen

(04:15)

Trotz seiner vielen Vorteile steht das überwachte Lernen auch vor einer Reihe von Herausforderungen, die bei der Entwicklung und Anwendung von solchen Modellen berücksichtigt werden müssen:

Eine der größten Herausforderungen ist die Notwendigkeit einer großen Menge an gut gekennzeichneten Daten. Diese müssen oft von Menschen manuell vorbereitet werden, was zeitaufwändig und teuer sein kann.

Zudem gibt es noch das sogenannte Overfitting. Das tritt auf, wenn sich der Algorithmus zu stark an die Trainingsdaten anpasst. Die Folge: Das Modell kann keine neuen, unbekannten Daten korrekt klassifizieren. Daher ist es wichtig, dass sich Trainings- und Testdaten unterscheiden, um eine Generalisierbarkeit des Modells zu ermöglichen.

Das Bild zeigt den Unterschied zwischen Overfitting und Underfitting im maschinellen Lernen, indem Overfitting als zu stark an Trainingsdaten angepasste Entscheidungsgrenze und Underfitting als zu einfache, ungenaue Modellanpassung dargestellt wird. Es vermittelt, warum beide Fälle zu schlechten Vorhersagen auf neuen Daten führen. — Overfitting und Underfitting

Aber auch das Gegenteil kann passieren — Underfitting. Hier ist das Modell zu einfach und kann die zugrundeliegenden Muster in den Daten nicht richtig erfassen. Das bedeutet, dass der Algorithmus sowohl auf den Trainingsdaten als auch auf neuen Daten schlecht abschneidet. Um das zu verhindern, sollte der Algorithmus ausreichend komplex gestaltet werden, damit er die relevanten Muster in den Daten erkennen kann.

Überwachtes, unüberwachtes & halbüberwachtes Lernen

Das Gegenstück zum überwachten Lernen ist das unüberwachte Lernen. Hier erhält der Algorithmus im Training ungelabelte Daten. Das heißt, es sind keine Ausgabewerte vorhanden. Der Algorithmus muss daher selbstständig herausfinden, wie die Daten sinnvoll zu strukturieren sind. Das Ziel ist es, die Daten in Gruppen (Cluster) zu unterteilen oder verborgene Strukturen zu entdecken. Das unüberwachte Lernen wird z. B. für die Kundensegmentierung, Dimensionsreduktion oder Anomalieerkennung angewandt.

Neben dem überwachten und dem unüberwachten Lernen gibt es auch noch das halbüberwachte Lernen — eine Mischung aus beiden. Dabei ist nur ein Teil der Trainingsdaten beschriftet. Der Algorithmus nutzt dann die gekennzeichneten Daten, um ein grundlegendes Modell zu erstellen. Anschließend versucht er, Muster in den unbeschrifteten Daten zu erkennen, um sein Wissen zu erweitern. Diese Methode wird ebenfalls in den Bereichen des überwachten Lernens eingesetzt wie der Gesichtserkennung oder der Text- und Bildklassifizierung. Es spart aber Zeit und Kosten, da nicht alle Trainingsdaten beschriftet werden müssen.

Deep Learning

Ein weiterer wichtiger Teil des maschinellen Lernens ist das sogenannte Deep Learning. Dort spielt auch der Lernalgorithmus der neuronalen Netzwerke eine große Rolle. Mehr zum Thema Deep Learning und wie es funktioniert, erfährst du hier!

Überwachtes Lernen — häufigste Fragen

(ausklappen)

Was ist der Unterschied zwischen überwachtem und unüberwachtem Lernen?

Überwachtes Lernen nutzt Trainingsdaten mit bekannten „richtigen“ Ausgaben (Labels), während unüberwachtes Lernen nur Eingabedaten ohne vorgegebene Ausgaben bekommt. Beim überwachten Lernen lernt das Modell also, Eingaben gezielt auf Labels abzubilden, beim unüberwachten Lernen soll es selbst Strukturen oder Gruppen in den Daten finden.
Was sind Labels beim überwachten Lernen?

Labels sind die vorgegebenen Ausgabewerte, mit denen Trainingsdaten beim überwachten Lernen „beschriftet“ sind. Sie sagen dem Algorithmus, welches Ergebnis zu welcher Eingabe gehört, zum Beispiel „Apfel“ zu einem Bild eines Apfels. Dadurch kann das Modell Zusammenhänge zwischen Eingaben und gewünschten Ausgaben lernen.
Woran erkennt man, ob ein Problem Klassifikation oder Regression ist?

Ein Problem ist Klassifikation, wenn man aus festen Kategorien auswählen soll, und Regression, wenn man einen Zahlenwert vorhersagen soll. Kategorien sind zum Beispiel „Spam“ oder „kein Spam“ beziehungsweise „gesund“ oder „krank“. Ein Zahlenwert ist zum Beispiel ein Preis oder ein erwarteter Umsatz.
Warum trennt man Trainingsdaten und Testdaten beim überwachten Lernen?

Trainingsdaten und Testdaten trennt man, damit man prüft, ob das Modell auch bei neuen, unbekannten Daten richtig vorhersagt und nicht nur die Trainingsbeispiele „auswendig lernt“. In der Testphase sind die Labels zwar vorhanden, aber für das Modell nicht direkt sichtbar. So lässt sich die Genauigkeit realistisch messen.

Maschinelles Lernen verstehen

Überwachtes Lernen ist eine wichtige Methode im maschinellen Lernen und steckt hinter vielen KI-Anwendungen im Alltag. Du schaust dir an, wie Algorithmen aus Daten Muster ableiten und daraus Vorhersagen oder Entscheidungen machen. So kannst du verschiedene Lernarten der KI einordnen und besser verstehen, warum Datenqualität und passende Tests für verlässliche Ergebnisse wichtig sind. Weitere Videos dazu findest du in unserem Informatikbereich.