Du möchtest wissen, wie du mit dem CRISP DM Modell deine Data Mining Projekte am besten strukturieren kannst? Hier und in unserem Video erfährst du seine 6 Schritte und wie du sie umsetzen kannst.

Inhaltsübersicht

Was ist CRISP DM?

Der CRISP DM ist ein einheitlicher Standard für die Entwicklung von Data Mining Prozessen und hilft Unternehmen bei der Strukturierung ihrer Projekte. Der Name CRISP-DM steht für Cross Industry Standard Process for Data Mining.

Der Data Mining Standard wurde 1996 in Mitarbeit zahlreicher namhafter Konzerne entwickelt und wird von der EU gefördert. Er hat das Ziel, ein einheitliches Vorgehensmodell für Data Mining Projekte zu schaffen, das zudem branchenübergreifend nutzbar ist.

Dabei ist eine Schritt-für-Schritt-Anleitung entstanden, die aus 6 Phasen besteht.

Die 6 Phasen eines Data Mining Projekts

Das CRISP DM Modell ermöglicht Data Scientists  und Data Analysts , ein Data Mining Projekt strukturierter und effizienter anzugehen. Es ist in folgende 6 Phasen unterteilt:

  1. Business Understanding (Aufgabendefinition)
  2. Data Understanding (Datenverständnis)
  3. Data Preparation (Datenvorbereitung)
  4. Modeling (Modellierung)
  5. Evaluation (Projektbewertung)
  6. Deployment (Bereitstellen der Ergebnisse)

Allerdings handelt es sich bei dem CRISP DM Modell nicht um einen einmaligen, linearen Durchlauf! Denn je nach Ergebnissen der einzelnen Phasen kann es erforderlich sein, in eine frühere Phase zurückzuspringen oder die gleiche Phase noch einmal zu wiederholen. Außerdem kann die Gewichtung der einzelnen Phasen von Projekt zu Projekt variieren. Aufgrund dieses agilen Arbeitens wird das CRISP DM Modell häufig nicht als ein Flussdiagramm, sondern als ein iterativer Kreislauf dargestellt:

CRISP DM, CRISP-DM, CRISP Modell, CRISP DM Modell, Abaluf Crisp DM, Schema
direkt ins Video springen
Die 6 Phasen des CRISP DM Modells

Im Folgenden wird jede der Phasen ausführlich beschrieben.

Phase 1: Business Understanding

In der ersten Phase des CRISP-DM Modells geht es darum, ein tieferes Geschäftsverständnis zu entwickeln. Die betriebswirtschaftliche Problemstellung sollte präzise beschrieben werden. Anschließend sollten konkrete Ziele gesetzt werden. 

  • Betriebswirtschaftliche Problemstellung bestimmen
    Hier werden die operationalen und wirtschaftlichen Zielkriterien formuliert. Es ist besonders wichtig, dabei den Anwender (z.B. ein Unternehmen) in den Prozess mit einzubeziehen, um den betriebswirtschaftlichen Hintergrund des Projekts zu verstehen. Ein konkretes Ziel könnte zum Beispiel sein, Kunden durch Werbung zielgerichteter anzusprechen.

  • Bewertung der Situation
    Hier werden die vorhandenen Software- sowie Personalressourcen betrachtet. Außerdem werden mögliche Risiken des Projekts analysiert.

  • Bestimmung analytischer Ziele
    Passend zu der jeweiligen Problemstellung (z.B.: Kunden zielgerichteter ansprechen) sollten hier die erforderlichen Datenanalyseaufgaben (z.B.: Kundensegmentierung) ermittelt werden. Auch die Erfolgskriterien (z.B.: Steigerung der Responsequote von Kampagnen um 4%) für das Projekt müssen bestimmt werden.

  • Erstellung des Projektplans
    Hier sollte das verantwortliche Team einen konkreten Projektplan erstellen. Darin sollten das Zeitmanagement, mögliche Risikofaktoren und die zur Verfügung stehenden Ressourcen (von Technologie bis hin zu Personal) mit einbezogen werden.

Phase 2: Data Understanding

Die zweite Phase des CRISP DM Modell beschäftigt sich damit, ein Datenverständnis zu entwickeln. Sie beinhaltet unter anderem die Analyse und Bewertung der Datenqualität. Die Phase des CRISP-DM Modell besteht aus folgenden 4 Unterpunkten:

  • Daten sammeln
    Hier werden die benötigten Daten beschafft und gegebenenfalls in eine bestehende Datenmenge integriert.

  • Daten beschreiben
    In diesem Schritt geht es um die Eigenschaften der Daten, wie Quantität oder Formateigenschaften. Sollten die vorliegenden Daten nicht genügen, das Projekt erfolgreich abzuschließen, müssen noch weitere Daten gesammelt werden.

  • Daten untersuchen
    Jetzt können erste Analysen mit den Daten betrieben werden. Dabei hilft es, Reports zu erstellen und Erkenntnisse und Hypothesen zu visualisieren.

  • Daten bewerten
    Auf Grundlage der ersten Untersuchungen bewerten die Analysten die Qualität der Daten. Sind die Daten verwendbar?

Phase 3: Data Preparation

In der dritten Phase des CRISP-DM Modells geht es um die Datenvorbereitung. Durch Bereinigung auf Aufbereitung wird ein finaler Datensatz erstellt, der die Basis für die nächste Phase der Modellierung bildet.

  • Daten auswählen
    Hier werden alle Daten ausgewählt, die für das Data Mining Projekt relevant sind. Die Auswahl der Daten hängt dabei stark von den Zielen, der Qualität und technischen Gegebenheiten des Anwenders ab.

  • Daten bereinigen
    Hier gilt es, eine saubere Datenmenge auszuwählen oder die Datenmenge zu bereinigen. Das bedeutet, dass fehlerhafte, doppelte oder falsch formatierte Daten gelöscht oder korrigiert werden. Dieser Schritt ist besonders wichtig, denn nur mithilfe sauberer Daten kann ein Data Mining Projekt überhaupt erfolgreich werden!

  • Daten transformieren und integrieren
    Um die Daten in eine brauchbare Darstellungsform zu bringen, werden sie transformiert. Die Transformation kodiert Daten und verändert deren Granularität durch Aggregation oder Disaggregation. Ein Beispiel für eine Aggregation ist das Zusammenfassen der Umsatzzahlen einzelner Filialen nach Regionen. 

  • Daten formatieren
    Falls es für die Modellierung nötig ist, sollte das Datenformat angepasst werden. Zum Beispiel könnten Zeichen („string values“) in Zahlen umgewandelt werden, um darauf mathematische Operationen durchführen zu können.

Phase 4: Modeling

In der vierten Phase des CRISP-DM Modells geht es darum, die Daten zu modellieren. In der Regel können hier mehrere Modellierungstechniken des Data Minings zum Einsatz kommen. Einige Techniken stellen dabei spezifische Anforderungen an die Daten. Deshalb ist es hier gut möglich, nochmal eine Phase im CRISP DM Modell zurückspringen zu müssen, um beispielsweise die Daten anders zu formatieren.

  • Modellierungstechnik auswählen
    Hier wird die richtige Modellierungstechnik zur Erstellung des Modells gewählt.

  • Testmodell erstellen
    Ist die Modellierungstechnik ausgewählt, können erste Testmodelle erstellt werden.

  • Modell bewerten
    Hier wird die Qualität und Genauigkeit des Modells bewertet. In überwachten Verfahren wie der Klassifikation ist es üblich, die Fehlerraten als Qualitätsmaß zu benutzen.

Phase 5: Evaluation

In der fünften Phase des CRISP-DM Modells geht es um die Evaluierung der Modelle. Die erstellten Datenmodelle sollten dazu exakt mit der Aufgabenstellung des Projekts abgeglichen werden. Sind die Modelle nicht ausreichend, sollte noch einmal in die vorherigen Phasen gesprungen werden.

  • Resultate bewerten
    Hier wird das Modell in Bezug auf die Zielsetzung und die betriebswirtschaftliche Fragestellung untersucht. Inwieweit kann das Modell die Projektziele erreichen?

  • Prozess bewerten
    Auch sollte noch einmal das gesamte Data Mining Projekt rückblickend bewertet werden. Welche Schritte liefen gut, welche hätten besser laufen können und warum? Durch die Dokumentation der Arbeitsprozesse lassen sich zukünftige Data Mining Projekte effizienter gestalten.

  • Nächste Schritte festlegen
    Der Projektleiter entscheidet, ob das Projekt nun beendet ist oder ob es noch Dinge zu verbessern gibt. Falls die Ergebnisse noch ausbaufähig sind, wird entschieden, in welche Phase des CRISP DM Modells zurückgesprungen wird.

Phase 6: Deployment

Die letzte Phase beschäftigt sich mit der Bereitstellung der Ergebnisse. Hier werden die gewonnen Erkenntnisse geordnet, zusammengefasst, visualisiert und dem Auftragsgeber präsentiert. Dieser hat nun die Möglichkeit, die Ergebnisse für sich zu nutzen und strategische Entscheidungen für sein Unternehmen zu treffen.

CRISP DM: Vor- und Nachteile

Das CRISP DM Modell ist unter Data Scientists eine der beliebtesten Herangehensweise für Data Mining Projekte. Die Gründe hierfür sind vielfältig:

  • generalisierbar: Obwohl das CRISP DM Modell speziell für Data Mining Projekte entworfen wurde, kann es auf die meisten Data Science Projekte angewendet werden. Denn auch hier müssen Daten verstanden, vorbereitet und modelliert werden.

  • flexibel: Der Ablauf des CRISP DM ist nicht linear, sondern kann an die Ansprüche des Projekts angepasst werden.

  • richtiger Start: Die erste Phase beschäftigt sich mit dem oft unterschätzten Geschäftsverständnis. Nur wenn die Data Scientists die betriebswirtschaftliche Fragestellung genau verstehen, können sie den Prozess zielgerichtet durchlaufen und Missverständnisse vorbeugen.

Aber das CRISP DM Modell steht auch in der Kritik:

  • viel Dokumentation: Fast jeder Schritt des CRISP DM Modells beinhaltet eine Form der Dokumentation. Für mache Teams könnte das eine unnötige Verlangsamung bedeuten.

  • komplexe Zusammenarbeit: Das CRISP DM Modell  ignoriert das Koordinieren der Zusammenarbeit zwischen großen, breit aufgestellten Teams.

Big Data

Bei Data Mining Projekten werden große Datenmengen ausgewertet und dabei Regelmäßigkeiten, verborgene Zusammenhänge und Muster erkannt. Die Erkenntnisse der Datenanalyse ermöglichen es Unternehmen, evidenzbasierte und objektive Entscheidungen treffen.

Die Grundlage für ein erfolgreiches Data Mining Projekt bilden dabei ganz klar die Daten. Je qualitativ hochwertiger, spezifischer und akkurater, desto besser. Aber auch der Umfang der Daten spielt eine große Rolle!

Eine große Menge an Daten wird auch „Big Data“ genannt. Du möchtest mehr über die Verwaltung und Verarbeitung von Big Data erfahren? Dann schau dir doch einfach unser Video dazu an!

Zum Video: Big Data
Zum Video: Big Data

Hallo, leider nutzt du einen AdBlocker.

Auf Studyflix bieten wir dir kostenlos hochwertige Bildung an. Dies können wir nur durch die Unterstützung unserer Werbepartner tun.

Schalte bitte deinen Adblocker für Studyflix aus oder füge uns zu deinen Ausnahmen hinzu. Das tut dir nicht weh und hilft uns weiter.

Danke!
Dein Studyflix-Team

Wenn du nicht weißt, wie du deinen Adblocker deaktivierst oder Studyflix zu den Ausnahmen hinzufügst, findest du hier eine kurze Anleitung. Bitte .