Woran erkennt man, ob man für eine Aufgabe unüberwachtes oder überwachtes Lernen braucht?

Unüberwachtes Lernen passt, wenn es keine Labels oder vordefinierten Zielklassen gibt und man erst Strukturen wie Gruppen oder Zusammenhänge in den Daten entdecken will. Überwachtes Lernen passt, wenn zu den Eingaben bereits „richtige Antworten“ (Labels) vorliegen und man diese gezielt vorhersagen soll.

Wie wählt man bei k-Means die richtige Anzahl an Clustern?

Die Clusteranzahl bei k-Means wählt man, indem man mehrere Werte für ausprobiert und prüft, ab wann eine weitere Erhöhung kaum noch Verbesserung bringt. Häufig nutzt man dafür die „Elbow“-Methode (Knick in der Fehlerkurve) oder den Silhouette-Score (wie gut Punkte in ihrem Cluster liegen).

Wie prüft man, ob ein Clustering gut ist, wenn es keine Labels gibt?

Ein Clustering prüft man ohne Labels mit internen Gütemaßen, die nur Abstände innerhalb und zwischen Clustern auswerten, zum Beispiel dem Silhouette-Score oder dem Davies-Bouldin-Index. Zusätzlich hilft ein Stabilitätscheck: Man clustert mit leicht veränderten Daten oder Startwerten und schaut, ob ähnliche Gruppen wieder entstehen.

Was ist der Unterschied zwischen PCA und Autoencodern bei der Dimensionsreduktion?

PCA reduziert Dimensionen durch eine lineare Projektion, die die Varianz der Daten möglichst gut erhält. Autoencoder reduzieren Dimensionen, indem ein neuronales Netz eine kompakte Zwischendarstellung lernt, aus der es die Eingaben wieder rekonstruieren kann, und können dadurch auch nichtlineare Strukturen abbilden.

Video

Hier geht's zum Video „Machine Learning“

Hier geht's zum Video „Reinforcement Learning“

Zurück zum Text

Weiter lernen Empfohlenes passendes Video

Unüberwachtes Lernen

Wichtige Inhalte in diesem Video

Was ist unüberwachtes Lernen?

(00:17)

Arten von unüberwachtem Lernen

Vor- und Nachteile von unüberwachtem Lernen

(03:35)

Ob bei Online-Shops, der Medizin oder der Datenanalyse — unüberwachtes Lernen findet in vielen Bereichen Anwendung. Was diese Methode so besonders macht, zeigen wir dir hier und im Video!

Inhaltsübersicht

Was ist unüberwachtes Lernen?

im Videozur Stelle im Video springen

(00:17)

Unüberwachtes Lernen (engl.: Unsupervised Learning) ist eine Methode aus dem Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (Machine Learning). Dabei versucht ein Computeralgorithmus, Muster oder Strukturen in Daten zu erkennen, ohne dass ihm vorher gesagt wird, worauf er achten soll. Er muss also selbst herausfinden, wie die Daten zusammenhängen oder wie sie zu sortieren sind — als würde dir jemand tausende Puzzle-Teile aus verschiedenen Puzzles vorlegen und du musst entdecken, welches Teil zu welchem Puzzle gehört.

Dadurch ist unüberwachtes Lernen besonders nützlich, wenn wenig über die Daten bekannt ist. Es hilft dabei, neue Erkenntnisse zu gewinnen und Muster zu entdecken, die einem Menschen nicht sofort auffallen würden. Daher findet diese Methode in vielen Bereichen Anwendung: von der Kundensegmentierung im Marketing bis hin zur Anomalieerkennung in der Medizin.

Überwachtes Lernen

Damit unterscheidet sich das unüberwachte Lernen stark vom überwachten: Denn beim überwachten Lernen werden beschriftete Daten verwendet. Das heißt, dem Computer wird konkret gezeigt, was richtig ist oder wonach er suchen soll, sodass er aus diesen Beispielen lernen kann. Beim Unsupervised Learning gibt es solche Vorgaben nicht. Daher ist auch im Vorhinein nicht klar, was für ein Ergebnis der Algorithmus liefern wird.

Wie funktioniert unüberwachtes Lernen?

Beim unüberwachten Lernen erhält ein Algorithmus eine große Menge an Rohdaten, wie z. B. Bilder, Texte oder Zahlen. Der Algorithmus durchsucht dann selbstständig die Daten nach Ähnlichkeiten, Unterschieden oder Mustern, um sie sinnvoll zu gruppieren und zu ordnen.

Diagramm zum unüberwachten Lernen: Eingabedaten werden von einem Algorithmus analysiert und ohne Vorgaben automatisch nach Mustern und Ähnlichkeiten gruppiert, um strukturierte Ausgabedaten zu erzeugen. — Wie funktioniert unüberwachtes Lernen?

Zum Beispiel könnte ein Algorithmus eine Sammlung von Kundendaten analysieren. Welche Kundengruppen es gibt oder wie sie einzuteilen sind, werden ihm nicht gesagt. Stattdessen sucht er nach Gemeinsamkeiten im Verhalten, wie häufige Kaufmuster oder ähnliche Vorlieben und teilt die Kunden in Gruppen ein, die sich ähneln.

Das Ergebnis dieser Analyse kann dann dazu verwendet werden, um Schlussfolgerungen zu ziehen oder Entscheidungen zu treffen — etwa, welche Produkte für welche Kundengruppe relevant sind.

Studyflix vernetzt: Hier ein Video aus einem anderen Bereich

Nach Beantwortung speichern wir deine Antwort, um Studyflix zu verbessern. Mehr dazu erfährst du in unserer Datenschutzerklärung.

Arten von unüberwachtem Lernen

im Videozur Stelle im Video springen

(01:23)

Bei der Analyse der unbeschrifteten Daten gibt es drei verschiedene Ansätze: Das Unsupervised Learning kann …

Daten gruppieren (Clustering),
Verbindungen zwischen Datenpunkten herstellen (Assoziation) oder
die Datenmenge vereinfachen (Dimensionsreduktion).

Je nachdem, welcher Ansatz erwünscht ist, gibt es verschiedene Algorithmen.

Clustering

im Videozur Stelle im Video springen

(01:33)

Die häufigste Art des unüberwachten Lernens ist das Clustering. Dabei werden Daten in Gruppen, die sogenannten „Cluster“, eingeteilt — wie bei unserem Kundengruppen-Beispiel von eben. Die Unterteilung basiert auf Ähnlichkeiten zwischen den Datenpunkten. Dadurch entstehen Gruppen, in denen die Datenpunkte innerhalb einer Gruppe möglichst ähnlich sind, während die Unterschiede zwischen den Gruppen möglichst groß sind.

Algorithmen, die häufig für das Clustering verwendet werden, sind zum Beispiel k-Means, Fuzzy-c-Means oder hierarchisches Clustering.

Vergleichsgrafik von Clustering und Klassifikation: Beim unüberwachten Lernen werden Datenpunkte anhand von Ähnlichkeiten in Cluster eingeteilt, während beim überwachten Lernen eine Klassifikation mit vorgegebenen Klassen erfolgt. — Clustering & Klassifikation

Das ist nicht zu verwechseln mit einer Klassifizierung des überwachten Lernens: Dabei werden Daten anhand bestimmter Merkmale in vordefinierte Kategorien eingeteilt. Beim Clustering entdeckt der Algorithmus die Gruppierungen selbst.

Assoziation

im Videozur Stelle im Video springen

(02:07)

Bei der Assoziation geht es darum, Verbindungen zwischen verschiedenen Datenpunkten zu entdecken. Ziel ist es, Regeln zu finden, die beschreiben, wie bestimmte Daten miteinander verknüpft sind.

Das ist z. B. die Methode, mit der der Hinweis „Andere Kunden haben sich auch angesehen“ in Online-Shops erstellt wird. Hier hat ein Assoziations-Algorithmus vorher herausgefunden, welche Produkte häufig miteinander gekauft werden und dir somit vorgeschlagen. Algorithmen, die sowas herausfinden, sind z. B. der Apriori- oder der Eclat-Algorithmus.

Dimensionsreduktion

im Videozur Stelle im Video springen

(02:41)

Mit dem Aufschwung von Big Data wird auch die Dimensionsreduktion immer bedeutender. Bei dieser Art des unüberwachten Lernens muss ein Algorithmus große Datensätze vereinfachen, indem er unwichtige oder redundante Merkmale entfernt — ohne die Kerninformationen zu verlieren.

Das ist beispielsweise in der Marktforschung relevant, wenn große Umfragen zu Produkteigenschaften gemacht werden. Darin nennen Teilnehmer z. B. über 300 verschiedenen Merkmale, was schwer zu analysieren ist. Ein Dimensionsreduktions-Algorithmus würde diese 300 Merkmale auf eine viel kleinere Anzahl von entscheidenden Faktoren reduzieren, ohne dabei wichtige Einschätzungen zum Produkt zu verlieren. So sind die Daten übersichtlicher und umgänglicher.

Für die Dimensionsreduktion werden z. B. die Hauptkomponentenanalyse (PCA) oder der Autoencoder verwendet.

Unüberwachtes Lernen — Beispiele

Unüberwachtes Lernen wird in vielen Bereichen eingesetzt. Hier sind einige Beispiele, wie diese Methode aktuell in der Praxis verwendet wird:

Marktsegmentierung: Clustering hilft dabei, Kunden und Konkurrenten in Gruppen einzuteilen, die sich in ihrem Verhalten, ihren Präferenzen bzw. Angeboten oder in demografischen Merkmalen ähneln. So können Unternehmen identifizieren, welche Kundengruppen womöglich noch nicht bedient werden und damit Marktlücken entdecken.
Anomalieerkennung: Durch die Identifizierung von Datenpunkten, die nicht in ein Cluster passen, können Anomalien oder Ausreißer erkannt werden. Das ist in Bereichen wie Betrugserkennung, Qualitätskontrolle und Netzwerküberwachung von Bedeutung.
Feature-Engineering: Feature-Engineering ist ein Prozess, bei dem Rohdaten so bearbeitet und transformiert werden, dass sie für ein Machine-Learning-Modell leichter zu handhaben sind. Das kann bedeuten, unnötige Merkmale zu entfernen oder bestehende zu kombinieren — und dabei kann Dimensionsreduktion helfen. Es reduziert die Anzahl der Merkmale und sorgt dafür, dass das Modell allgemein anwendbar ist (kein „Overfitting“).

Unterschiede zwischen überwachtem & unüberwachtem Lernen

Überwachtes und unüberwachtes Lernen sind zwei wichtige Methoden des maschinellen Lernens und werden oft zusammen genannt. Doch sie unterscheiden sich deutlich in ihrer Arbeitsweise. Alle Unterschiede sind hier in der Tabelle zusammengefasst:

	Überwachtes Lernen	Unüberwachtes Lernen
menschlicher Eingriff	hoher Eingriff — der Mensch muss Daten kategorisieren und beschriften	geringer Eingriff — Algorithmus kann mit unbeschrifteten Daten arbeiten
Trainingsdaten	gelabelte Daten, d. h. Daten sind bereits mit der richtigen Antwort (Label) versehen	unbeschriftete Daten, d. h. keine Kategorien oder Labels vorhanden
Trainingsprozess	Algorithmus lernt, indem er auf Basis von gelabelten Beispielen die richtige Antwort vorhersagt	Algorithmus sucht selbstständig nach Mustern, Ähnlichkeiten und Strukturen
Anwendungsgebiete	Klassifizierung (z. B. Bild-/Textkategorisierung), Regression (z. B. Vorhersage von Preisen)	Clustering (z. B. Kundensegmentierung), Assoziation (z. B. Warenkorbanalyse), Dimensionsreduktion (z. B. Datensimplifizierung)

Vor- und Nachteile von unüberwachtem Lernen

im Videozur Stelle im Video springen

(03:35)

Unüberwachtes Lernen bietet einige klare Vorteile, insbesondere in Situationen, in denen Daten unstrukturiert sind oder ständig aktualisiert werden. Denn unüberwachtes Lernen kann in Echtzeit auf neue Daten reagieren. Das ist ideal für dynamische Umgebungen wie die Überwachung von Netzwerken oder E-Commerce-Plattformen, wo sich Daten kontinuierlich ändern.

Der größte Vorteil von unüberwachtem Lernen ist aber, dass es deutlich weniger zeit- und kostenintensiv ist. Denn der Algorithmus arbeitet eigenständig, ohne dass ein Mensch die Daten vorab beschriften muss.

Herausforderungen beim unüberwachtem Lernen

Doch trotz seiner Vorteile bringt unüberwachtes Lernen auch einige Herausforderungen mit sich. Da die Algorithmen oft komplex sind, erfordert die Berechnung eine leistungsstarke Hardware und kann viel Zeit in Anspruch nehmen — vor allem bei großen Datensätzen. Dabei besteht außerdem die Gefahr, dass der Algorithmus irrelevante Muster erkennt oder die Daten falsch gruppiert.

Daraus ergibt sich ein weiteres Risiko: Die Ergebnisse können ungenau oder schwer zu interpretieren sein. Schließlich müssen die gefundenen Gruppen im Nachhinein durch einen Menschen eingeordnet und bewertet werden. Da der Algorithmus aber nicht preisgibt, wie er zu seinem Ergebnis gekommen ist, kann das sehr aufwendig sein.

Reinforcement Learning

Neben dem unüberwachtem Lernen ist auch das Reinforcement Learning (verstärkendes Lernen) eine Methode des maschinellen Lernens. In unserem Video zeigen wir dir, wie das funktioniert und wo das verstärkende Lernen angewendet wird!

Unüberwachtes Lernen — häufigste Fragen

(ausklappen)

Woran erkennt man, ob man für eine Aufgabe unüberwachtes oder überwachtes Lernen braucht?

Unüberwachtes Lernen passt, wenn es keine Labels oder vordefinierten Zielklassen gibt und man erst Strukturen wie Gruppen oder Zusammenhänge in den Daten entdecken will. Überwachtes Lernen passt, wenn zu den Eingaben bereits „richtige Antworten“ (Labels) vorliegen und man diese gezielt vorhersagen soll.
Wie wählt man bei k-Means die richtige Anzahl an Clustern?

Die Clusteranzahl bei k-Means wählt man, indem man mehrere Werte für ausprobiert und prüft, ab wann eine weitere Erhöhung kaum noch Verbesserung bringt. Häufig nutzt man dafür die „Elbow“-Methode (Knick in der Fehlerkurve) oder den Silhouette-Score (wie gut Punkte in ihrem Cluster liegen).
Wie prüft man, ob ein Clustering gut ist, wenn es keine Labels gibt?

Ein Clustering prüft man ohne Labels mit internen Gütemaßen, die nur Abstände innerhalb und zwischen Clustern auswerten, zum Beispiel dem Silhouette-Score oder dem Davies-Bouldin-Index. Zusätzlich hilft ein Stabilitätscheck: Man clustert mit leicht veränderten Daten oder Startwerten und schaut, ob ähnliche Gruppen wieder entstehen.
Was ist der Unterschied zwischen PCA und Autoencodern bei der Dimensionsreduktion?

PCA reduziert Dimensionen durch eine lineare Projektion, die die Varianz der Daten möglichst gut erhält. Autoencoder reduzieren Dimensionen, indem ein neuronales Netz eine kompakte Zwischendarstellung lernt, aus der es die Eingaben wieder rekonstruieren kann, und können dadurch auch nichtlineare Strukturen abbilden.

Machine Learning verstehen

Unüberwachtes Lernen ist ein wichtiger Ansatz im Machine Learning und wird genutzt, um aus Daten ohne Vorgaben Muster zu erkennen. Wer sich mit Machine Learning beschäftigt, ordnet Lernarten ein und vergleicht, wie Modelle aus Daten Regeln ableiten. So verstehst du, wann du Labels brauchst und wann Strukturen auch ohne feste Klassen entstehen. Weitere Videos dazu findest du in unserem Informatikbereich.