Keynote-Speakerin auf der Insights22

„Der Satz 'Daten sprechen für sich selbst' ist einfach nur Blödsinn“

   Artikel anhören
Katharina Schüller
© Antonia Schauz
Katharina Schüller
Katharina Schüller ist Datenwissenschaftlerin mit Mission. Mit ihrem Unternehmen STAT-UP sowie zahlreichen Initiativen dringt sie darauf, die Datenkompetenz in unserer Gesellschaft zu verbessern. Im Interview mit planung&analyse erklärt sie ihren Standpunkt und gibt einen kleinen Vorgeschmack auf ihre Keynote auf der p&a Insights22.




Sie setzen sich vehement für mehr Datenkompetenz ein. Warum ist das wichtig? Wie ist Ihre Diagnose unserer Gesellschaft derzeit? 
Wir leben – ob wir es wollen oder nicht – in einer datafizierten Gesellschaft. Daten spielen eine immer größere Rolle und sie werden von Unternehmen und der Politik verwendet, um Entscheidungen zu treffen. Und das passiert mehr oder weniger gut. Das haben wir in der Pandemie gemerkt. Daher ist Datenkompetenz wichtig, und zwar für diejenigen, die große und relevante Entscheidungen treffen. Die müssen einfach verstehen, was die Daten aussagen, was die Evidenz ist. Aber das Thema ist auch relevant für jeden Bürger und jede Bürgerin, die Daten mehr oder weniger bewusst bereitstellen, oft ohne zu wissen, was damit passiert und passieren kann.


Was muss geschehen, um die Situation zu verändern? Muss man in der Grundschule anfangen? Dauert es dann noch 30 Jahre, bis wir datenkompetent sind? Wir leben in einem Land, in dem es immer noch schick oder akzeptabel ist, zu sagen: „Ach, in Mathe war ich nie gut“ oder „Glaube keiner Statistik, die du nicht selbst gefälscht hast“. Das hört man dann meistens von Leuten, die gar nicht wissen, wie sie eine gefälschte Statistik erkennen sollten.
Wir müssen Datenkompetenz als Teil der Allgemeinbildung sehen. Das gehört in die Grundschulen, und zwar idealerweise nicht in den Matheunterricht. Unseren Kindern wird vermittelt: Es gibt Mathe und es gibt das echte Leben. Das ist falsch. Man könnte es auf lebensnahe Art und Weise vermitteln. Da ist etwa ein abgesägter Baumstamm, aus dem man interessante Dinge lesen kann, zum Beispiel wie alt der Baum war oder wie viel Niederschlag es vor zehn Jahren gab, weil die Jahresringe unterschiedliche Breite haben. Solche Beispiele gehören meines Erachtens früh in den Unterricht hinein. Mit dem Hinweis: Wir lernen durch Beobachtung und wir versuchen etwas zu verallgemeinern. Dann kommt die Frage: Wie interpretiere ich das? Das ist der Kern der Datenkompetenz. Unterscheiden zu können, was steckt in den Daten – ob Texte, Bilder, Videos – und was ist die Interpretation der Daten. Diese Kompetenz fehlt häufig bei Leuten, die wichtige Entscheidungen treffen. Man beobachtet oft eine post-dezisionistische Argumentation. Es wird entschieden, was zu machen ist und hinterher sucht man die passenden Daten dazu. Daran erkennt man das Unwissen, was man aus Daten wirklich lesen kann. Dafür braucht es keine tiefe Kenntnis von Algorithmen, Statistik oder Wahrscheinlichkeitstheorie, sondern ein Grundverständnis dafür, wie dieser Prozess der Wertschöpfung aus Daten funktioniert. Datenkompetenz eben.

Wie können wir die Datenkompetenz unserer Gesellschaft verbessern? Welche Initiativen versprechen Abhilfe? Ich engagiere mich schon eine ganze Weile unter anderem zusammen mit dem Stifterverband mit der Data-Literacy-Charta. Das ist eine Selbstverpflichtung. Unterzeichner aus unterschiedlichsten Bereichen, die das Thema für wichtig halten, sagen: Wir sind der Auffassung, dass Data-Literacy Teil der Allgemeinbildung werden sollte. Das wiederum hat dazu geführt, dass wir von der IEEE Standards Associationden Auftrag bekommen haben, einen globalen Standard für Daten- und KI-Kompetenz zu entwickeln. Ich darf diese Arbeitsgruppe leiten. Die Standards von IEEE, dem Weltverband für Ingenieure, sind weltweit führend im technischen Bereich. Aber das Institut beschäftigt sich auch schon seit zehn Jahren mit KI und Datenethik. So ist dort etwa ein Standard entstanden, der sich damit beschäftigt, wie man schon bei der Entwicklung autonomer Systeme und Algorithmen das Thema Ethik von Anfang an mitberücksichtigen kann. Sozusagen: Ethik by Design. Zusammen mit dem Stifterverband ist auch ein Data-Literacy-Framework entstanden. Da gibt es an vielen Hochschulen in Deutschland interdisziplinäre Kurse zum Thema Datenkompetenz. Also nicht für Leute, die schon Data-Science oder Statistik studieren, sondern für künftige Stadtplaner, Psychologen oder Lehrer, die immer mehr mit Daten arbeiten und datengestützte Entscheidungen treffen, es aber nicht als Hauptteil ihrer Tätigkeit haben.

…oder für Mediziner
Genau. Mediziner auch. Die sollten lernen, was es bedeutet, wenn sich ein Risiko verschiedener Diagnoseverfahren oder therapeutischer Verfahren um so und so viel verändert. Was heißt das für meine Patienten? Wie erkläre ich es, ohne zu verunsichern, aber auch ohne zu beschönigen? Wie lerne ich medizinische Studien zu lesen, die möglicherweise auf neuartige Verfahren setzen und so weiter.

Denken wir mal an die Zeit von Corona zurück. Da gab es einerseits die Forderung nach tatsächlich repräsentativen Studien von Empirikern und andererseits Tausende medizinische Studien, die alle sehr viele Restriktionen hatten und deswegen nicht übertragbar waren. Wie kommt diese Kluft zustande, können Sie mir das sagen? Ich habe mich da von Anfang an – schon im März 2020 – dafür ausgesprochen eine repräsentative Bevölkerungsstudie zu machen, passiert ist es nicht. Stichwort Kluft. Ich glaube, wir sind es nicht gewohnt, in solchen Krisen unkompliziert interdisziplinär und außerhalb der gewohnten Strukturen zusammenzuarbeiten. Das ist ein Problem. Wir sprechen unterschiedliche Sprachen. Aber wenn ein Entscheider – aus welchem Fachgebiet auch immer – nicht ausformulieren kann, was er haben möchte, damit ein Datenexperte dann dazu in der Lage ist, die Daten zu beschaffen und Modelle zu bauen, wird das nicht funktionieren.

Katharina Schüller
Katharina Schüller
© Antonia Schauz
ist Statistikerin und leitet seit fast 20 Jahren das Beratungsunternehmen STAT-UP mit Fokus auf Data Science und Künstliche Intelligenz. Sie ist Pionierin in den Bereichen Datenkompetenz und Datenethik und hat die Data Literacy Charta unter Trägerschaft des Stifterverbands mitinitiiert. Die IEEE Standards Association berief sie 2021 zur Leiterin einer internationalen Arbeitsgruppe, die einen globalen Standard für Data & AI Literacy entwickelt. Sie gehört zum Autorenteam der Unstatistik und des gerade erschienenen Buches „Grüne fahren SUV und Joggen macht unsterblich“.

Aber auch wir als Fachexperten müssen in der Lage sein, zu erklären, wo Limitationen von Modellen sind, beispielsweise weil sie nicht repräsentativ sind. Da müssen beide Seiten lernen, miteinander zu kommunizieren. Aber das tun wir nicht. Auch das ist wieder ein Ausdruck mangelnder Datenkompetenz, dass wir nicht frühzeitig vermitteln, wie eng dieses Thema mit unserem täglichen Leben verwoben ist. Dann passiert es, dass diejenigen, die sich mit Daten beschäftigen extreme Spezialisten sind, alle anderen sagen: „Da will ich nichts mit zu tun haben“ oder „das macht dann schon der Algorithmus für mich“.

Es mangelt also wie so oft an ausreichender Kommunikation? Ja, es ist mir wichtig zu sagen: Der Satz „Daten sprechen für sich selbst“ ist einfach nur Blödsinn. Daten sprechen nicht für sich selbst, weil sie immer kontextualisiert werden müssen, weil sie immer mit Fehlern behaftet sind, weil Modelle immer auf bestimmten Annahmen beruhen, die einfach mitkommuniziert und verstanden werden müssen, damit die Limitationen klar sind. Und in der Pandemie kommt dazu: Nur Daten, die da sind, können auch sprechen. Und es wurde in der Pandemie relativ früh entschieden: Wir wollen gesundheitliche Themen in den Griff bekommen - Erkrankungen, Hospitalisierungen, Sterbefälle - und zwar nur die direkten. Später ist dann klar geworden, dass es auch indirekte gesundheitliche Komplikationen gibt, also Operationen, die verschoben werden müssen und so weiter. Aber auch jenseits des gesundheitlichen Bereichs gab es ökonomische Folgen, Folgen für das Bildungssystem …

planung&analyse Insights22
Auf dem diesjährigen Kongress planung&analyse Insights am 27. und 28. September in Frankfurt dikutiert Katharina Schüller gemeinsam mit Alexander Markowetz, Co-Gründer Murmuras und Prof. Universität Marburg, Michael Herter von infas 360 und Hans-Werner Klein, Data Scientist, Data Berata zu Datenkompetenz und Datenethik.

Jetzt hier anmelden

Mein Lieblingsbeispiel: Hätten wir jeden Tag in der Tageschau gehört, wie viele Menschen wegen Depressionen krankgeschrieben werden, wie viele ihren Job verloren haben, wie viele sich umgebracht haben, wie viele Unterrichtsstunden ausgefallen sind, hätten wir ein völlig anderes Bild über diese Pandemie gehabt. Und das Management der Pandemie wäre auch vollkommen anders vonstatten gegangen, ob besser oder schlechter, will ich nicht beurteilen. Aber diese Entscheidung, wie ich ein Problem mit Daten lösen möchte, die wird getroffen, bevor ich die Daten erhebe. Dies hat aber massiven Einfluss darauf, welche Entscheidungen getroffen werden können. Das ist wichtig zu verstehen. Dazu gehört Datenkompetenz. Das ist genau die Schnittstelle zwischen den Fachdisziplinen und der Politik. Sich im Klaren zu sein, ich treffe am Anfang eine Entscheidung, was ich überhaupt messen will und diese Entscheidung beeinflusst, welche Daten ich bekomme. Und deswegen sind Daten nicht neutral.

Frau Schüller, vielen Dank für das Gespräch. Wir freuen uns schon auf die Keynote.

    Ich habe die Datenschutzbestimmungen zur Kenntnis genommen und akzeptiere diese.
    stats