Grundlagen der Datenzusammenführung

Methoden und Verfahren im Überblick

Daten gewinnen im Marketing immer mehr an Bedeutung. Da heute jedoch Kommunikation über die unterschiedlichsten Kanäle und Instrumente geführt wird, müssen die vorhandenen Daten vor der Verwendung in der Regel zusammengeführt werden. Hier lauern jedoch einige Fallstricke, die bei Nichtbeachtung dazu führen, dass der komplette Datenbestand inkonsistent und korrumpiert ist. Die wichtigsten Methoden und Verfahren bei der Zusammenführung von Daten aus unterschiedlichen Quellen werden im Folgenden beschrieben.

Eine relationale Datenbank ist eine Sammlung von Tabellen, in welchen Datensätze abgespeichert sind. Jede Zeile in einer Tabelle ist ein Datensatz und jeder Datensatz besteht aus einer Reihe von Attributwerten, den Spalten der Tabelle.

Bereichsintegrität

Bei der Bereichsintegrität prüfen wir ob der Wert eines Eintrags in einem bestimmten Wertebereich liegt. Bekannte Beispiele hierfür sind zum Beispiel Postleitzahlen die in Deutschland immer fünfstellig sein müssen und nur nummerische Werte enthalten dürfen oder das Geburtsdatum, das im Format TT.MM.JJJJ vorliegen muss.

Entitätsintegrität

Im Rahmen der Prüfung der Entitätsintegrität wird sichergestellt das vorhandene Primärschlüssel nur einmal je Datenquelle vorkommt. Primärschlüssel dienen dazu Datensätze eindeutig zu indentifizieren. Das Mehrfachvorhandensein von Primärschlüsseln sorgt bei der weiteren Datenverarbeitung zu Problemen und kann sogar den Abbruch von Prozessen oder die Verfälschung von Daten zur Folge haben. Haben beispielweise zwei unterschiedliche Adressen den gleichen Primärschlüssel Kundennummer, kann anhand der Kundennummer nicht die richtige Adresse ermittelt werden.

Referentielle Integrität

Bei der referentiellen Integrität wird geprüft ob der Wert des Fremdschlüssels in der referenzierten Tabelle nur einmalig vorhanden ist. Ein Beispiel: In der Tabelle A speichern Sie Ihre Kundenstammdaten bestehend aus Anrede, Vorname, Nachname, Geburtsdatum, Adressdaten und Kundennummer. In Tabelle B speichern Sie die Bestellübersicht Ihres Kunden. Damit Sie nun eine Bestellung einem Kunden zuordnen können werden neben Bestelldatum und dem Gesamtwert auch die Kundennummer je Datensatz gespeichert. Damit Bestellungen nicht dem falschen Kunden zugeordnet werden, muss sichergestellt sein, dass in der führenden Tabelle A die Kundennummer nur einmal vorkommt.

Logische Konsistenz

Sollten aufgrund der unterschiedlichen Herkunft der Daten eine Prüfung auf Entitätsintegrität und referentielle Integrität nicht durchgeführt werden können, empfehlen wir die Durchführung der Prüfung auf logische Konsistenz. So werden dann die Datensätze aus unterschiedlichen Quellen bei Übereinstimmung der E-Mail-Adresse oder bei Übereinstimmung von Vorname, Name und Geburtsdatum zusammengeführt.

Verteilte Speichersysteme

Bei der Verarbeitung von Daten aus verteilten Speichersystemen, wie zum Beispiel im Rahmen des Cloud Computing, ist vor allem der Zeitpunkt der Speicherung der Daten relevant, da es hier systembedingt zu replizierten Datensätzen kommt. In verteilten Systemen ist es in der Regel nicht sinnvoll alle Replika konsistent zu halten, deswegen erfordert hier die Datenzusammenführung individuell auf das vorhandene System abgestimmte Prozesse.

Autor: Jürgen Buchberger Kategorie: Data Tag: Data Data Merge Datenzusammenführung