CRISP-DM einfach erklärt – Der Standardprozess für Data-Science-und Machine-Learning-Projekte

CRISP-DM steht für Cross-Industry Standard Process for Data Mining. Ursprünglich wurde das Modell für klassische Data-Mining-Projekte entwickelt, heute wird es jedoch allgemein für Data-Science-, Analytics- und Machine-Learning-Projekte eingesetzt.

CRISP-DM beschreibt einen strukturierten und iterativen Prozess zur Entwicklung datengetriebener Lösungen. Dabei besteht der Zyklus aus sechs Phasen:

  1. Business Understanding
  2. Data Understanding
  3. Data Preparation
  4. Modeling
  5. Evaluation
  6. Deployment

Der Prozess ist zyklisch aufgebaut. Nach einer Iteration kann erneut mit der Business-Understanding-Phase begonnen werden, um Modelle und Prozesse weiter zu verbessern.

Wichtig ist dabei: Die Phasen sind nicht strikt linear. In der Praxis springt man häufig zwischen einzelnen Phasen hin und her. Besonders häufig passiert das zwischen:

  • Business Understanding ↔ Data Understanding
  • Data Preparation ↔ Modeling

Ein typisches Beispiel: Daten wurden zunächst für einen Entscheidungsbaum vorbereitet. Anschließend soll zusätzlich ein neuronales Netz trainiert werden, das andere Anforderungen an die Datenrepräsentation hat. Dadurch wird ein erneuter Wechsel zurück in die Data-Preparation-Phase notwendig.


1. Business Understanding

Die Business-Understanding-Phase bildet die Grundlage eines erfolgreichen Projekts. Häufig ist das ursprüngliche Problem zunächst noch relativ abstrakt und muss erst konkretisiert werden.

In dieser Phase werden:

  • Ziele,
  • Anforderungen,
  • Rahmenbedingungen,
  • Risiken,
  • Erfolgskriterien

aus Sicht des Unternehmens definiert.

Dabei ist besonders wichtig, dass Erfolgskriterien geschäftlicher und nicht rein technischer Natur sind.

Ein Ziel lautet beispielsweise nicht: „Wir möchten ein Modell mit 95 % Genauigkeit.“

Sondern eher:

  • „50 % der Kundenanfragen sollen automatisiert beantwortet werden.“
  • „Die Maschinenausfallzeit soll um 3 % reduziert werden.“

Diese Trennung ist wichtig, da ein technisch „schlechteres“ Modell unter Umständen trotzdem einen hohen geschäftlichen Nutzen liefern kann.

Beispielsweise kann bereits ein Modell, das nur 20 % aller eingehenden Anfragen automatisch verarbeitet, einen erheblichen Mehrwert schaffen.

Zusätzlich werden in dieser Phase:

  • Ressourcen geprüft,
  • Risiken identifiziert,
  • Projektpläne erstellt,
  • und Business-Ziele in Data-Mining-Ziele übersetzt.

Ein Beispiel:

Wenn das Business-Ziel lautet, Maschinenausfälle zu reduzieren, könnte das technische Ziel darin bestehen, ein Modell zur Früherkennung von Ausfällen auf Basis von Sensordaten zu entwickeln.


2. Data Understanding

Nachdem die Ziele definiert wurden, beginnt die Arbeit mit den Daten.

In der Data-Understanding-Phase wird:

  • geprüft, welche Daten existieren,
  • wo diese liegen,
  • wie darauf zugegriffen werden kann,
  • und welche Qualität die Daten besitzen.

In der Praxis bedeutet das häufig Abstimmungen mit:

  • Fachabteilungen,
  • IT-Abteilungen,
  • Data Engineers,
  • oder externen Partnern.

Oft treten bereits hier erste Herausforderungen auf:

  • proprietäre Datenformate,
  • fehlende Zugriffsrechte,
  • Datenschutz- oder Compliance-Themen,
  • unvollständige Daten.

Anschließend werden die Daten beschrieben:

  • Welche Datentypen liegen vor?
  • Welche Zeiträume decken die Daten ab?
  • Welche Bedeutung besitzen einzelne Spalten oder Felder?
  • Handelt es sich um strukturierte oder unstrukturierte Daten?

Danach folgt meist eine explorative Datenanalyse (EDA – Exploratory Data Analysis).

Hier werden:

  • Verteilungen analysiert,
  • Korrelationen untersucht,
  • Auffälligkeiten identifiziert,
  • und erste Hypothesen gebildet.

Werkzeuge wie Jupyter Notebook, Pandas oder Polars eignen sich dafür besonders gut.

Visualisierungen spielen in dieser Phase eine große Rolle, da sie sowohl technische Erkenntnisse liefern als auch die Kommunikation mit Stakeholdern erleichtern.

Oft werden bereits erste Probleme sichtbar:

  • fehlende Werte,
  • Ausreißer,
  • inkonsistente Schreibweisen,
  • Änderungen fachlicher Definitionen,
  • oder Veränderungen der Datenerfassung im Zeitverlauf.

Diese Probleme werden später in der Data-Preparation-Phase behandelt.


3. Data Preparation

Die Data-Preparation-Phase ist häufig die zeitintensivste Phase eines Projekts. In vielen Projekten fließen 70–80 % der Arbeitszeit in die Datenaufbereitung.

In dieser Phase werden die Daten:

  • bereinigt,
  • transformiert,
  • erweitert,
  • und modellierbar gemacht.

Data Cleaning

Typische Aufgaben sind:

  • Umgang mit fehlenden Werten,
  • Entfernen von Duplikaten,
  • Behandlung von Ausreißern,
  • Korrektur fehlerhafter Daten.

Fehlende Werte können beispielsweise:

  • entfernt,
  • interpoliert,
  • ersetzt,
  • oder bewusst als eigenes Merkmal genutzt werden.

Feature Engineering

Anschließend werden aus Rohdaten sinnvolle Features abgeleitet.

Ein klassisches Beispiel sind Zeitstempel. Ein roher Unix-Zeitstempel enthält oft wenig direkt interpretierbare Information für ein Modell. Daraus lassen sich jedoch sinnvolle Merkmale ableiten:

  • Wochentag,
  • Uhrzeit,
  • Feiertage,
  • Monatsanfang,
  • Jahreszeit.

Zusätzlich können weitere Datenquellen integriert werden, beispielsweise Wetterdaten oder externe Geschäftsdaten.

Wichtig ist dabei:
Die zusätzlichen Daten müssen später im Produktivbetrieb ebenfalls verfügbar sein.

Datenrepräsentation

Je nach Modell müssen Daten unterschiedlich aufbereitet werden.

Ein Entscheidungsbaum kann oft direkt mit kategorialen Daten umgehen, während neuronale Netze numerische Eingaben benötigen. Dafür kommen beispielsweise:

  • One-Hot-Encoding,
  • Embeddings,
  • oder andere Kodierungsverfahren

zum Einsatz.

Am Ende müssen die Daten in geeigneten Formaten gespeichert werden:

  • CSV,
  • Parquet,
  • Pandas-/Polars-Objekte,
  • oder Datenbanken.

4. Modeling

In der Modeling-Phase werden die eigentlichen Machine-Learning-Modelle trainiert und technisch bewertet.

Hierzu gehören:

  • Modellauswahl,
  • Hyperparameteroptimierung,
  • Training,
  • Validierung,
  • und technische Evaluation.

Die technische Bewertung erfolgt beispielsweise anhand von:

  • Accuracy,
  • Precision,
  • Recall,
  • F1-Score,
  • RMSE,
  • oder anderen Metriken.

Dabei werden oft verschiedene Modelle und Parameterkombinationen getestet.

Zusätzlich muss festgelegt werden:

  • wie der Datensatz aufgeteilt wird,
  • welche Validierungsstrategie verwendet wird,
  • und wie Experimente reproduzierbar bleiben.

Typische Methoden sind:

  • Train/Test-Split,
  • Validierungsdaten,
  • Kreuzvalidierung.

Für reproduzierbare Ergebnisse sollte ein fester Zufalls-Seed verwendet werden.

Auch Hyperparameteroptimierung spielt eine wichtige Rolle. Häufig genutzte Verfahren sind:

  • Grid Search,
  • Random Search,
  • oder Bayesian Optimization.

Die verschiedenen Experimente sollten dokumentiert werden, beispielsweise mit Tools wie MLflow.


5. Evaluation

Die Evaluation-Phase betrachtet die Modelle aus geschäftlicher Sicht.

Hier geht es nicht mehr primär um technische Kennzahlen, sondern um Fragen wie:

  • Liefert das Modell einen echten Mehrwert?
  • Rechtfertigt der Nutzen die Kosten?
  • Passt die Lösung zum ursprünglichen Business-Ziel?

Ein technisch starkes Modell ist nicht automatisch die beste Lösung.

Ein Beispiel:
Ein sehr großes Modell erreicht zwar eine hohe Genauigkeit, verursacht jedoch hohe Infrastrukturkosten. In der Praxis kann ein kleineres und kosteneffizienteres Modell die bessere Wahl sein.

Zusätzlich werden häufig:

  • Pilotbetriebe,
  • kontrollierte Rollouts,
  • oder A/B-Tests

durchgeführt.

Dabei zeigt sich oft erst unter realen Bedingungen:

  • wie Nutzer tatsächlich mit dem System interagieren,
  • ob Daten von den Trainingsdaten abweichen,
  • oder welche neuen Risiken auftreten.

Neben dem Modell selbst entstehen im Projekt häufig zusätzliche geschäftliche Erkenntnisse.

Beispielsweise kann während der Datenanalyse auffallen, dass Cloud-Ressourcen ineffizient genutzt werden oder Prozesse unnötige Kosten verursachen — selbst wenn diese Erkenntnisse nicht direkt Bestandteil des finalen Modells sind.

Am Ende der Evaluation erfolgt die eigentliche Go-/No-Go-Entscheidung:

  • Deployment,
  • weitere Iteration,
  • oder Projektabbruch.

6. Deployment

In der Deployment-Phase wird das Modell produktiv eingesetzt.

Dabei geht es nicht nur um die technische Bereitstellung per:

  • Docker,
  • VM,
  • API,
  • oder Webanwendung.

Zusätzlich spielen organisatorische und rechtliche Aspekte eine große Rolle:

  • Compliance,
  • Datenschutz,
  • IT-Sicherheit,
  • Kostenstellen,
  • Governance,
  • und regulatorische Anforderungen wie der EU AI Act.

Typische Fragen sind:

  • Wo läuft das Modell?
  • Wie gelangen aktuelle Daten ins System?
  • Wo werden Ergebnisse gespeichert?
  • Wie werden Ergebnisse visualisiert?

Häufig werden die Ergebnisse in Dashboards oder Reporting-Systeme integriert, beispielsweise:

  • Power BI,
  • Apache Superset,
  • oder Metabase.

Nach dem produktiven Rollout folgt in vielen Teams zusätzlich eine Retrospektive. Dabei wird analysiert:

  • was gut funktioniert hat,
  • welche Probleme aufgetreten sind,
  • und wo zukünftige Projekte verbessert werden können.

Fazit

CRISP-DM ist auch heute noch eines der wichtigsten Prozessmodelle für Data-Science- und Machine-Learning-Projekte.

Besonders wertvoll ist dabei:

  • die klare Struktur,
  • die starke Business-Orientierung,
  • und der iterative Ansatz.

In der Praxis werden viele moderne Themen wie MLOps, Cloud-Deployment oder AI-Governance zusätzlich integriert. Dennoch bildet CRISP-DM weiterhin eine sehr gute Grundlage für strukturierte datengetriebene Projekte.

Der Prozess hilft dabei, technische Lösungen nicht isoliert zu betrachten, sondern immer im Kontext des geschäftlichen Nutzens zu entwickeln.


Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert