Data-Profiling

Data-Profiling bezeichnet den weitgehend automatisierten Prozess zur Analyse vorhandener Datenbestände (z. B. in einer Datenbank) durch unterschiedliche Analysetechniken. Durch das Data Profiling werden die existierenden Metadaten zu den Echtdaten validiert und neue Metadaten identifiziert. Zusätzlich werden bestehende Datenqualitätsprobleme validiert, die verursachenden Daten identifiziert und die Informationsqualität der analysierten Daten gemessen. Durch das Data Profiling werden keine Qualitätsprobleme in den Daten behoben, sondern nur die zugehörigen Metadaten korrigiert.

Der Data-Profiling-Prozess

Die Data-Profiling-Analyse ist ein iterativer Prozess, der in folgenden vier Einzelschritten (vgl. Apel et al. 2010, S. 110) abläuft:

Daten integrieren,
integrierte Daten analysieren,
Ergebnisse darstellen und
fachlich bewerten.

Data-Profiling-Verfahren

Die verschiedenen Data-Profiling-Verfahren lassen sich in Attribut-, Datensatz- und Tabellen-Analyse einteilen. Bei der Attribut-Analyse werden alle Werte in einer Tabellen-Spalte (= Attribut) sowie die Eigenschaften der Attribute einer Tabelle untersucht, in der Datensatz-Analyse alle Datensätze einer Tabelle und in der Tabellen-Analyse alle Beziehungen zwischen verschiedenen Tabellen. Für jede dieser drei Analysearten existieren viele unterschiedliche Data-Profiling-Verfahren.

Literatur

Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi. Datenqualität erfolgreich steuern. 2. Aufl. 2010, Hanser Fachbuch, ISBN 978-3-446-42501-9.