Data Scientist Ziawasch Abedjan

„Grundlagenforschung muss immer aus der Realität kommen“

   Artikel anhören
Professor Ziwasch Abedjan
© privat
Professor Ziwasch Abedjan
Prof. Dr. Ziawasch Abedjan ist Jurymitglied für den Innovationspreis des BVM. Der Data Scientist arbeitet an konkreten Instrumenten, die für die praktische Arbeit mit großen Datenmengen essenziell sind. Im Gespräch mit planung&analyse fordert er zudem Engagement  zur Verbesserung der Data Literacy, dem umfassenden Verständnis von Daten und ihrer Wirkung in bestimmten Anwendungen.
Sie sind Data Scientist. Ich konfrontiere Sie gleich mal mit einem beleibten Vorurteil: Data Scientist können aus Daten alles herauslesen, was sie wollen. Wir können sehr viel herauslesen. Man muss aber sehr genau aufpassen, welche Schlüsse sich aus der Datenlage ziehen lassen. Das können letztlich nur die Domänenexperten, die über Hintergrundswissenverfügen tun. Wir haben vor ein paar Jahren an einem Wettbewerb teilgenommen. Da ging es um Feinstaub in der Luft und wie er sich zeitlich und örtlich in Berlin verteilt. Es kam damals heraus, dass am Valentinstag besonders viel Feinstaub in der Berliner Luft hängt. Ob man daraus Schlüsse ziehen kann? Da muss man vorsichtig sein. Das haben wir dann auch damals dem Tagesspiegel gesagt. Wir wissen nicht, ob eine Kausalität besteht.


Das bekannte Thema: Korrelation und Kausalität. Da sind sich Marktforscher und Data Scientist ja schon sehr nahe und aufmerksam, dass da nichts durcheinandergerät. Wie gehen Sie vor, wenn Sie mit Daten arbeiten? Das Problem in vielen Unternehmen ist, dass zwangsläufig mehr Zeit mit der Suche nach relevanten Daten verbracht wird, als damit sie zu analysieren. Einem Datenwissenschaftler reicht heutzutage nicht eine kleinen Anzahl von Datenquellen, etwa die aus dem Unternehmen stammen. Stattdessen müssen sie zur Beantwortung komplexer Fragen auf Daten zugreifen, die über Tausende von Datenquellen verteilt sind. Um dieses Problem anzugehen, erfassen wir Beziehungen zwischen Datensätzen in einem sogenannten Enterprise Knowledge Graph (EKG). Der hilft dem Benutzer zwischen verschiedenen Quellen zu navigieren.

Sie betreiben also nicht nur Grundlagenforschung, sondern sind ganz konkret auch an Anwendungen beteiligt, die von Unternehmen und Forschern genutzt werden können? Die Inspiration für Grundlagenforschung muss immer aus der Realität kommen. Wir denken intensiv über Beziehungen von Daten nach, ob die nun aus der Medizin oder von Wetterdiensten kommen, ist uns egal. Es gibt so viele Daten, die irgendwo herumliegen. Erst wenn man sie miteinander verbindet, entsteht ein Mehrwert. Wir haben mächtige Instrumente, die Daten zusammenfassen und Muster aufdecken können. Die Verantwortung daraus valide Schlüsse zu ziehen, die liegt dann bei den Daten-Eignern. Es ist nicht sinnvoll zu sagen, die Daten zeigen das, also muss es wahr sein. Das ist eine gefährlicher Weg. Man muss das genau analysieren: Wie sind die Daten erhoben worden? Fehlen womöglich Daten, die das Ganze in einem anderen Licht erscheinen lassen? Passt das mit bekannten tatsächlichen Kausalitäten zusammen? Und so weiter.

Ihr Spezialgebiet ist die Reinigung der Datenmengen von Störungen? Was stört da? Datenmengen haben häufig Qualitätsprobleme. Dazu gehören fehlende Daten, fehlerhafte Erhebungen und Probleme hinsichtlich der Repräsentativität. Wir arbeiten an Algorithmen und Systemen, die diese Probleme teilweise automatisch erkennen und Nutzer dabei unterstützen diese auf großen Datenmengen zu beheben.

Wie kann man sich das in der Praxis vorstellen? Die Datenreinigung ist sehr von den jeweiligen Daten abhängig. Man kann nicht immer dieselbe Konfiguration nutzen. Jeder Datensatz ist unterschiedlich zu behandeln. Um Daten von Störungen zu reinigen, muss man mit vielen Tools umgehen, aber man muss die Daten auch verstehen. Wir wollen dem Daten-Owner ermöglichen, diesen Prozess einfacher durchzuführen. Wir versuchen, das so weit wie möglich handhabbar zu machen.

Wie kommen Marktforscher an Ihr Wissen zur Reinigung von Daten heran? Kann man das bei Ihnen kaufen? Bei uns kann man nichts kaufen, wir sind eine Universität. Die Systeme sind als Open-Source-Software verfügbar. Die sind frei verfügbar, sind ja mit öffentlichen Mitteln erforscht worden. Und das schöne bei der Informatik ist: Wir haben nicht nur Paper, sondern auch Codes und Software. Natürlich können wir auch konkrete Projekte mit Unternehmen zusammen durchführen. Unsere Systeme, wie Aurum, Raha, und Baran können einfach installiert und mit jedem Datensatz genutzt werden. Bei Raha muss nur ein paar Werte markieren, die bekanntermaßen korrekt oder falsch sind. Mit diesen können die weiteren Datenfehler gefunden werden. Beim Projekt Aurum geht es um Datenfindung. Dieses Projekt haben wir vor ein paar Jahren gestartet, denn viele Daten liegen irgendwo herum und erst wenn man sie miteinander verbindet, entsteht ein Mehrwert. Diese Datenfindung kann innerhalb eines Unternehmens durchgeführt werden. Etwa bei einem Pharmaunternehmen hat man viele Daten der forschenden Wissenschaftler. Wenn man dann zu einem Medikament alle interessierenden Datenpunkte finden will, ist das nicht trivial.

Sie haben sich, als Sie noch an der TU Berlin tätig waren, auch mit Data-Literacy beschäftigt. Wie sehen Sie die Notwendigkeit, dass jeder ein tiefes Verständnis von Daten hat, reicht es nicht mit einem Smartphone umgehen zu können? Da in unserer Gesellschaft so viele Entscheidungen auf Daten beruhen, ist es notwendig, die Menschen dafür zu sensibilisieren, wie Anwendungen aufgrund von Daten arbeiten. Wie kommen Entscheidungen zustande und wie sollte ich mich als Mensch dazu positionieren. Es wäre wichtig, dass sich jeder darüber Gedanken macht, welche Daten er preisgeben will.
Prof. Dr. Ziawasch Abedjan
lehrt die Grundlagenvorlesungen "Datenstrukturen und Algorithmen" und "Einführung in Datenbanken" an der Leibniz Universität Hannover. Er forscht an skalierbaren Methoden zur Verarbeitung und Analyse von großen heterogenen Datenmengen. Insbesondere forscht er an neuen Algorithmen für die automatische Vorbereitung, Extraktion, und Säuberung von Datenmengen für Data Science Workflows.
Wir haben zusammen mit der Gesellschaft für Informatik dazu Kurse an der TU-Berlin durchgeführt. Das Vorbild war ein Kurs der Universität Berkley. Das waren Masterstudenten, die nicht Informatik, sondern andere Fächer studierten. Die waren sehr erfolgreich. Es ging zum Beispiel auch um Visualisierung. Wann nutze ich welchen Chart? Das sollte nicht beliebig sein, denn es gibt eine eigene Wissenschaft, die sich damit beschäftigt, wann es am sinnvollsten ist, Linien oder Säulen zu nutzen. Dadurch werden unterschiedliche Informationen vermittelt. Dann ging es natürlich auch um den Umgang mit Wahrscheinlichkeiten. Was bedeutet das konkret?

Wie gering das Wissen über Wahrscheinlichkeiten in der Bevölkerung ist, das sieht man ja daran, wie viele Menschen Lotto spielen oder wie viele sich nicht impfen lassen. Das sind ganz einfache mathematische Dinge. Aber für viele Menschen ist es schwer, sich eine exponentielle Entwicklung vorzustellen. Da helfen vielleicht solche Bilder wie das Schachbrett auf dessen Felder eins nach dem anderen jeden Tag die doppelte Menge an Reiskörnern gelegt wird. Und auf dem 64. Feld liegen so viele Reiskörner, dass das ganze Brett darunter zusammenbricht. Wichtig ist, dass auch für Data Scientists die Daten eine Bedeutung bekommen. Und wenn wir echte Daten haben, wird die Sache gleich viel interessanter. Daher haben wir großes Interesse mit Unternehmen oder Marktforschungsinstituten zusammenzuarbeiten.

Herr Abedjan, wir danken für das Gespräch
    Ich habe die Datenschutzbestimmungen zur Kenntnis genommen und akzeptiere diese.
    stats