Interview mit Civey-Gründer Gerrit Richter

„Die Debatte hat uns nicht geschadet“

Gerrit Richter ist CEO des Meinungsforschungs-Startup Civey
© civey
Gerrit Richter ist CEO des Meinungsforschungs-Startup Civey
Das Meinungsforschungs-Startup Civey wird von Kritikern als unseriös bezeichnet. Gründer Gerrit Richter äußert sich zu den Vorwürfen, erklärt wie sie mit den vielen Klicks von AfD-Sympathisanten umgehen und warum sie eigentlich Rohdaten veröffentlichen.

2015 wurde Ihr Unternehmen gegründet, jetzt haben Sie gerade neue Räume mit fast 60 Leuten bezogen… Läuft bei Ihnen, oder? Wir sind sehr zufrieden mit der Unternehmensentwicklung. Wir konnten im vergangenen Jahr die Nutzerzahlen und Umsätze verdoppeln. Das ist eine sehr erfreuliche Entwicklung.



Die meisten von uns kennen Ihre Umfragen auf verschiedenen Online-Medien aber womit verdienen Sie eigentlich Ihr Geld? Wir führen Auftragsumfragen für Kunden durch. Das sind in der Regel große Unternehmen, darunter viele DAX-30-Firmen. Wir sind darauf spezialisiert, die Ergebnisse auf kleinere Bereiche, etwa auf die Größe von Landkreisen herunterzubrechen. Dafür spielt die große Anzahl unserer Nutzer natürlich eine entscheidende Rolle.

Sie machen also nicht nur Meinungs- sondern auch Marktforschung? Ganz genau.


Sie haben sich ja im vergangenen Jahr viel Ärger eingehandelt. Sozialwissenschaftler wie Professor Schnell haben Ihr Vorgehen als „unseriös“ bezeichnet, das war noch eine der zurückhaltenderen Äußerungen. Warum verzichten Sie nicht einfach auf das Label „repräsentativ“? Die ganze Diskussion dreht sich um die Frage, ob der Begriff “repräsentativ” überhaupt definiert werden kann. Die perfekte Zufallsstichprobe existiert nur im Labor. Da sind wir uns – denke ich – alle einig. Das Label „repräsentativ“ wird nach unserer Wahrnehmung meistens verwendet, um eine Ergebnis-Qualität und nicht um eine Stichproben-Qualität auszuweisen. Wir sollten darüber reden, wie das Thema von wem verwendet wird und uns auf eine klare Definition einigen. Alle Unternehmen verwenden statistische Verfahren, um ihre Stichproben um etwaige Fehler zu korrigieren. Wir nehmen für uns in Anspruch, dass unsere Ergebnisse die Meinung der jeweiligen Grundgesamtheit repräsentieren und deswegen verwenden wir auch das Label “repräsentativ”.

Der Ausgangspunkt der ganzen Diskussion war ja eine Beschwerde beim Presserat von drei Instituten. Diese wurde abgewiesen. Soviel ist bekannt. Forsa hat damals angekündigt, man wolle das weiterverfolgen und auch vor den Rat der Marktforschung bringen. Sind da noch Verfahren anhängig? Uns ist da nichts bekannt.

Gibt es andere Auseinandersetzungen? Sie wollten ja gerichtlich gegen die öffentlichen Beschimpfungen einiger Meinungsforscher vorgehen. Selbstverständlich beobachten wir ganz genau, ob der ein oder andere Wettbewerber sich unlauterer Methoden bedient, also zum Beispiel Kunden von uns anruft und dort Unwahrheiten verbreitet. Falls das der Fall ist, behalten wir uns natürlich auch juristische Schritte vor.

Aber gegen die Player die sich im letzten Jahr gegen Sie unflätig geäußert haben, gehen Sie nicht vor? Wir äußern uns grundsätzlich nicht zu laufenden Verfahren, da bitte ich um Verständnis.

Ein häufiger Vorwurf ist, dass Sie lediglich Menschen befragen, die sich auf bestimmten Webseiten, wie etwa Spiegel Online befinden. Diese antworten dann nur, wenn sie Lust auf die Frage haben. Also zwei Fehler in den Augen der Hardliner: 1. Selbstselektion 2. keine Zufallsauswahl. Wie soll da ein anständiges Ergebnis heraus kommen? Wir betreiben ein Open-Access-Panel. Das heißt, der Nutzer entscheidet sich freiwillig, ob er sich anmeldet und an Umfragen teilnimmt. Dies ist bei Telefon-Umfragen auch nicht anders. Auch hier entscheidet sich der Teilnehmer freiwillig, ob er antwortet oder nicht. Der ausschlaggebende Punkt für uns ist, dass der Nutzer keine Kontrolle darüber hat, welche Fragen wir ihm vorschlagen und welche er beantworten kann. Und von den rund 10 bis 20 Umfragen, die der Nutzer in einer Session beantwortet, entscheidet wiederum ein Algorithmus, welche Antworten für die Stichprobe herangezogen werden.
Aber mal generell gesagt: Egal wie man heute Daten erhebt, sie sind immer verzerrt und haben unterschiedlichste Biases. Es gibt verschiedene Vorgehensweisen, wie man diese Verzerrungen korrigieren kann. Der Klassiker ist die Verwendung einer Quotenstichprobe, aber es gibt auch andere Verfahren, die fortschrittlicher sind: Wir sind davon überzeugt, dass “Multilevel Regression with Poststratification” das vielversprechendste Verfahren ist. Und so denken nicht nur wir. Große Unternehmen wie YouGov, Kantar oder GfK wollen ebenfalls mit diesem Prinzip arbeiten. Das lässt sich unter anderem auch in den entsprechenden Geschäftsberichten nachlesen.

Wie funktioniert das vereinfacht gesagt? Bereits 2015 haben unter anderem Wissenschaftler der Columbia University gezeigt, was mit diesem Verfahren möglich ist. Sie haben Xbox-Nutzer befragt – also eine ganz spezielle Zielgruppe – und konnten durch ihr statistisches Verfahren valide Aussagen für eine größere Grundgesamtheit machen. Sie konnten qualitativ ähnliche oder sogar bessere Ergebnisse erzielen, als es mit herkömmlichen Methoden möglich ist. Das ist jetzt natürlich ein Extrembeispiel und ich würde es niemand raten, eine Befragung mit Spielekonsolen-Nutzern zu machen. Aber es zeigt, was möglich ist.
Repäsentativität mit X-Box-Benutzern?
Wissenschaftler der Columbia University wollten ihre Methode der Multilevel Regression with Poststratification testen und führten bei Benutzern der Spielekonsole X-Box Befragungen durch. Zur Studie
Sie haben gesagt, die Grundlage für Ihre Befragung ist mittlerweile ein ganz normales Online-Panel. Die Interessenten registrieren sich und bekommen dann in Abständen Fragen zugeschickt? Das Grundprinzip ist bei uns immer da gleiche. Egal ob uns der Nutzer auf der Webseite eines Medienpartners findet, auf unsere eigene Seite kommt oder wir ihn per E-Mail anschreiben: Wir schlagen ihm eine Reihe von Umfragen vor, die thematisch nicht zusammenhängen. Diese Umfragen werden nach einem bestimmten Algorithmus ausgewählt. Unser Ziel ist es, dass die Nutzer möglichst viele Fragen beantworten. Daher holen wir die Nutzer dort ab, wo sie sich online aufhalten und stellen vielfältige Fragen. Als Bonus sehen sie sofort die Ergebnisse. So motivieren wir Menschen, bei Befragungen mitzumachen. Wir wollen einerseits erreichen, dass der Nutzer länger dabei bleibt und mehr Fragen beantwortet. Das ist ein ganz wesentlicher Punkt. Wie motiviere ich Menschen noch bei Befragungen mitzumachen? Wir erreichen dadurch ein breites Bild des Nutzers. Wir erfahren seine Einstellung zu einer ganzen Reihe von Themen und erkennen, wie zuverlässig er ist, zum Beispiel anhand seines Klickverhaltens oder daran, dass er sich in Widersprüche verwickelt. Wie groß ist das Panel jetzt? Wie viele Nutzer haben Sie? Momentan haben wir 1,5 Millionen registrierte und verifizierte Nutzer.

Und auf wie vielen Webseiten kann man Ihre Befragungen finden? Wenn man die einzelnen URLs zählen würden, auf denen Umfragen laufen, dann geht das in die Hunderttausende. Das ist aber keine relevante Zahl. Relevant ist, wie viele von unseren Umfragetools pro Monat aktiv sind. Das heißt, ein Mensch besucht eine bestimmte URL und hat sich dann an einer Umfrage beteiligt. Das sind etwa 25.000 aktive Umfragetools pro Monat. Wir arbeiten derzeit mit mehr als 20 Redaktionen in Deutschland zusammen. Diese Redaktionen betreuen wiederum eine ganze Reihe von Online-Portalen. Wenn zum Beispiel GMX eine Umfrage einbettet, dann kann diese auch auf web.de oder aber auch auf web.de Österreich und Schweiz erscheinen. Dazu kommen noch eine ganze Reihe von Blogs.

Ob die Methode wissenschaftlich haltbar ist, da gehen die Meinungen weit auseinander. Aber haben Sie denn die Ergebnisse Ihrer Methode mit den herkömmlichen Methoden der Meinungsforschung schon mal verglichen? Jedes Ergebnis ist bei uns öffentlich, das heißt, jeder kann prüfen, ob unsere Berechnungen valide sind. Spannend finden wir Vergleiche mit bekannten Daten. Also zum Beispiel, wie viele Personen in einen bestimmten Film ins Kino gegangen sind. Das kann man wunderbar abfragen und mit sehr validen externen Zahlen vergleichen. So etwas schauen wir uns natürlich an und entwickeln unser Modell danach weiter. Der Vergleich mit Box-Office-Zahlen ist also ein Beispiel für eine interne Validierungsmethode. Wir planen aber auch mit mehreren deutschen Universitäten eine größere Validierungsstudie. Wir würden uns natürlich freuen, das in Zusammenarbeit mit anderen Unternehmen zu machen. Ich glaube Validierung ist generell ein Thema für die Branche.

Eine Sache, die immer zu lesen ist: Kann man bei Civey mehrfach an Umfragen teilnehmen? Theoretisch ist das denkbar, wenn man sich etwa mit verschiedenen Accounts anmeldet. Aber das ist nichts Besonderes, sondern bei jedem Online-Panel möglich. Wir haben aber verschiedene Mechanismen, um das auszuschließen. Das Wichtigste: Wir setzen keine monetären Anreize. In den meisten Online-Panels werden Teilnehmer bezahlt. Dadurch existiert für manche eine Motivation, sich mehrere Accounts anzulegen, um mehr Geld zu verdienen. Das ist bei uns nicht der Fall. Der zweite Mechanismus ist, dass wir jeden Account sehr lange und intensiv beobachten, bevor er überhaupt in die Stichprobe kommen kann. Wir prüfen zum Beispiel auf Widersprüche im Antwortverhalten. Erst wenn wir uns ganz sicher sind, dass das ein echter Mensch ist, der über eine längere Zeit konsistent antwortet, kommt er in die Stichprobe. Da ist natürlich eine Rest Unsicherheit drin, aber die haben wir bei jeder Umfragemethode. Auch am Telefon kann man nicht ganz sicher sein, ob der Teilnehmer die Wahrheit sagt. Wir alle kennen die Probleme.

Und die allererste Frage, die ich beantworte, wenn ich auf einer Webseite eine Umfrage von Civey finde, die wird auch verworfen – oder? Es gibt eine hohe Wahrscheinlichkeit, dass sie nicht verwendet wird. Das erste Item, welches der Teilnehmer beantwortet, ist wirklich sehr mit Vorsicht zu genießen, weil es da eine Menge Verzerrungen geben kann. Der Algorithmus bewertet, ob sich das Antwortverhalten systematisch unterscheidet. Dann wird die Antwort nicht gewertet.

Was Civey ausmacht ist die Veröffentlichung der Rohdaten, nur ein Klick neben den gewichteten Ergebnisse kann man diese Rohdaten erfahren. Das klingt nach Transparenz, kann aber auch eine Menge Verwirrung stiften. Was bringt die Veröffentlichung dieser Rohdaten? Das ist eine sehr gute Frage, die auch bei uns intern diskutiert wird. Warum haben wir uns bei der Gründung entschieden, dies zu tun? Im Prinzip sind die Rohdaten die aufaddierten Klicks der Umfrage, unabhängig davon, ob ein Mensch sich registriert hat oder ob wir ihn für zuverlässig halten. Warum veröffentlichen wir die Rohdaten also? Weil es im Internet sehr viele Klick-Umfrage gibt. Wir hatten bei der Unternehmensgründung den Ansatz aufzuklären und zu zeigen, was rauskommt, wenn man Internetnutzer einfach nur klicken lässt und was, wenn man sie auf ihre Zuverlässigkeit überprüft und Verzerrungen durch statistische Verfahren beseitigt.

Für die meisten Menschen sind diese Unterschiede nur schwer zu erkennen. Aber von unseren Teilnehmern bekommen wir sehr gutes Feedback für diese Transparenz. Aber Rohdaten können in geneigten Kreisen durchaus zu einer missbräuchlichen Verwendung führen. Unser erster Schritt dagegen ist, dass wir besser dokumentieren und erklären. Man kann in jeder unserer Umfragen detailliert nachlesen, was Rohdaten sind, wie sie ermittelt werden. Aber in der Tat diskutieren wir, ob wir den Zugang beschränken sollten, etwa auf Personen, die sich besonders dafür interessieren oder dafür qualifiziert haben. Wir werden aber an unserer Linie festhalten, die Ergebnisse transparent zu halten. Der Kern unseres Ansatzes ist es, die Menschen zu motivieren ihre Meinung zu sagen. Das macht uns einzigartig. Wir incentivieren nicht mit Geld, sondern zeigen die Daten im Vergleich.

Wenn man sich diese Rohdaten etwa in politischen Statements anschaut, dann fällt allerdings auf, dass der Anteil an AfD-Sympathisanten sehr groß ist. Wie gehen Sie damit um? In den vergangenen Jahren ist es dem rechtskonservativen Spektrum gelungen, online zu mobilisieren. Natürlich wird da versucht Umfragen zu manipulieren. Unsere Stichproben sind zunächst immer verzerrte Stichproben. Da können zu wenige Männer drin sein, zu wenige Frauen, oder zu viele AfD-Anhänger. Die entscheidende Frage ist, ob ich diesen Bias feststellen und mit statistischen Verfahren entfernen kann. Genau das tun wir – erfolgreich.

Wie sieht die Zukunft aus? Werden Sie Ihre Vorgehensweise ändern? Wollen Sie vielleicht ins Ausland expandieren? Inhaltlich arbeiten wir besonders an Small Area Estimations, also wie kann man sehr kleine Gruppen genauer bestimmen. Zum Beispiel eine Gruppe wie Prepaid-Nutzer einzelner Anbieter aus Baden-Württemberg. Wir arbeiten auch ganz aktuell daran, unsere Daten geografisch besser darstellen zu können. Und wir unternehmen erste Gehversuche in Österreich und der Schweiz. Aber insbesondere konzentrieren wir uns auf das Wachstum in Deutschland.

Und hat die Debatte um die Repräsentativität in der Öffentlichkeit ihnen mehr geschadet oder mehr genutzt? Letzten Endes fehlt da ein bisschen die Vergleichsgrundlage. Wir sind nach wie vor ein kleines Startup aus Berlin und sind selber ein bisschen überrascht, welche umfangreiche Debatte wir ausgelöst haben. Methoden und statistische Gewichtungsverfahren wie etwa Multilevel Regression with Poststratification und ein Online-Access-Panel haben wir ja nicht ursprünglich entwickelt. Sie alle existieren schon seit vielen Jahren, aber wir kombinieren sie in einer besonderen Form. Und das macht uns einzigartig. Das ist unsere technologische Leistung. Von daher sind wir ein bisschen erstaunt über die große Aufmerksamkeit. Geschäftlich hat es uns das auf jeden Fall nicht geschadet.
Themenseiten zu diesem Artikel:
Ich habe die Datenschutzbestimmungen zur Kenntnis genommen und akzeptiere diese.
stats