Programmatic Advertising Schluss mit Garbage in, Garbage out: 6 Tipps für bessere Datenqualität

Dienstag, 14. März 2017
Amit Ghosh
Amit Ghosh
© INWT Statistics

Daten sind gerade in aller Munde. Doch sie sinnvoll zu nutzen ist alles andere als trivial. "Daten müssen veredelt werden, aber das ist kein Selbstläufer", sagt Amit Ghosh vom Datenspezialisten INWT Statistics auf der D3Con University in Hamburg. Das Sprichwort "Garbage in, Garbage out" - böse Zungen sagen auch "Shit in, Shit out" sei leider wahr.

"Die Datenqualität ist der Flaschenhals. Es ist besser, die Zeit bei den Daten anzulegen, als in der Modellierung. Die Daten können der Gamechanger sein und die Ergebnisse erheblich verbessern", so Ghosh. Durch den Einsatz fehlerhafter oder ungeeigneter Daten würden in Deutschland jeden Tag Beträge verbrannt, die schnell im fünf- bis sechsstelligen Euro-Bereich liegen.

Ghosh gibt daher sechs Tipps für eine bessere Datenqualität:

1.

Smart statt Big Data

Daten müssen ordentlich archiviert und dokumentiert werden und auf Aktualität hin überprüft werden. Denn sie veralten schnell. Der fast unbegrenzte Speicherplatz führt jedoch dazu, dass immer mehr gespeichert wird. "Besser ist es nur das zu speichern, was man wirklich braucht und das ordentlich zu machen", rät Ghosh.

2.

Data Warehouse mit konsolidierten Daten

Es kann sinnvoll sein, ein neues Data Warehouse aufzusetzen, das nur die relevanten Daten enthält, auch dies wieder dokumentiert.

3.

Dokumentation

Sie ist das A und O, denn wenn Spezialisten das Unternehmen verlassen, oder einfach nur Zeit vergeht, gerät in Vergessenheit, wie die Daten erhoben wurden. So können signifikante Fehler auftreten. In der Dokumentation reiche es jedoch meist, Mindestandards zu erfüllen, also die Tabellen zum Beispiel mit kurzen Kommentaren zu verknüpfen. Gosh: "Das kostet wenig Zeit, aber viel Ärger."

4.

Mit den Daten arbeiten

"Das ist der wichtigste und einfachste Tipp", findet Ghosh. Häufig arbeiten die Mitarbeiter mit alten Systemen weiter, wenn neue kommen, so dass plötzlich unterschiedliche Auswertungen kursieren.

5.

Daten bereinigen

Man sollte nur die Daten behalten, die man auch benötigt. Gab es beispielsweise einen Relaunch einer Website, so sind die davor erhobenen Daten nicht mehr relevant. "Diese Daten kann man einfach wegschmeißen."

6.

Datenvalidierung als Teil des Projektes

Die Daten müssen immer wieder auf Validität geprüft werden. Es sei unnötig, eine 100-prozentige Datenqualität erreichen zu wollen. Es gibt robuste statistische Verfahren, die fehlenden abzuleiten. "Die falsche Gewissheit ist schlimmer als die Ungewissheit", so Ghosh. pap

Meist gelesen
stats