Methodendiskussion

Ist die Zufallsstichprobe wirklich noch der Goldstandard?

   Artikel anhören
© Illustration: Stock Things / Colourbox, Eve / Fotolia; Montage: P&A
Dieser Tage wird mal wieder heftig über Methoden in der Branche diskutiert. Nicht immer sind die Stellungnahmen frei von versteckten Motiven. Es geht um Zufalls-Stichproben und River Sampling und die Glaubwürdigkeit repräsentativer Studien.
Wer in der Zeitschrift Research World des Weltverbandes der Marktforscher veröffentlichen will, muss ein Paper einreichen und die Redaktion überzeugen. Im Falle von Raimund Wildners „Challenges in Sampling in Market and Social Research“ wurde das Paper abgelehnt. Der Inhalt sei zu brisant. Für uns nicht: planung&analyse hat das Paper in der Ausgabe 4 veröffentlicht und hier online. Dennoch wurde das Thema während des virtuellen Kongresses von Esomar im Gespräch mit Jonathan Deitch, COO von CINT, und rund 20 Zuschauern diskutiert.


Wildner ist in Deutschland gut bekannt als und Vorsitzender des Rates der Deutschen Markt- und Sozialforschung Vorstand des NIM (ehemals GfK Verein). Außerdem ist er Mitglied des Professional Standards Committee bei Esomar und Honorarprofessor an der Universität Erlangen-Nürnberg für Statistik. Also nicht irgendwer. Seine Kernaussage: „Die in Lehrbüchern beschriebene Zufallsstichprobe ist so etwas wie das Einhorn der Marktforschung: Es ist sehr schön, jeder weiß, wie es aussieht, aber niemand hat es bisher gesehen.“

Wildner beklagt vor allem, dass sich die Wissenschaft zwar intensiv mit Zufallsstichproben beschäftigt und ganze Lehrbücher über den Umgang damit gefüllt sind, dass aber die – zumindest in der Marktforschung sehr viel häufiger verwendete – Quotenstichprobe, die nicht nach dem Zufallsprinzip vorgeht, oft überhaupt nicht erwähnt, geschweige denn erforscht wird. Eine Quotenstichprobe setzt ein Sample nach Alter und Geschlecht sowie anderen sinnvollen Variablen entsprechend der Grundgesamtheit, zum Beispiel der Bevölkerung, zusammen. Es wird dabei unterstellt, dass diese Stichprobe dann auch repräsentativ für die Frage ist, die gestellt wird. Dies ist aber ein Modell. Bekannt ist, dass nicht alle 40-jährigen Frauen mit zwei Kindern gleich „ticken“. Aber, so Wildner: „Gute Quotenstichproben sind jedoch keineswegs Willkür, sondern fein ausgesteuertes Kunsthandwerk.“


Eine Zufallsstichprobe setzt die Stichprobe, wie es der Name sagt, nach dem Zufall zusammen. 100 Jahre Forschung belegen, dass die dort generierten Aussagen der Probanden in dieser Zufallsstichprobe der Wahrheit am nächsten kommen. Das wird auch heute noch erforscht.

Carina Cornesse, Post Doc von der Universität Mannheim, hat sich mit einer großen Gruppe von anderen Wissenschaftlern mit Zufallsstichproben, oder wie die Wissenschaft sagt Probability-Samplen und Non-Probabilitiy-Samplen auseinandergesetzt. In einer Meta-Studie, vorgestellt auf der GOR, wurden die Ergebnisse von 37 Primärstudien untersucht, die jeweils die beiden Methoden zur Stichprobenerhebung miteinander verglichen. Das Ergebnis: Unser Literaturüberblick zeigt, dass selbst im Zeitalter rückläufiger Rücklaufquoten die Genauigkeit von Probability-Samplen im Allgemeinen höher ist als die von Non-Probabilitiy-Samplen. Auf der Grundlage der gesammelten empirischen Belege lautet unsere wichtigste Empfehlung, weiterhin auf Probability-Sample zu setzen.“ Nun diese wissenschaftliche Untersuchung bestätigt das, was fast alle Markt- und Sozialforscher sagen: Die Zufallsstichprobe ist der Goldstandard. Aber wer soll das bezahlen?

Und diese Untersuchung trifft auch nicht den Punkt, um den es Wildner in seinem Paper geht. Bedingung für diese Zufallsstichprobe ist, dass es für jedes Lebewesen der Grundgesamtheit eine Wahrscheinlichkeit größer als null gibt, in die Stichprobe zu kommen. Und dass diese Wahrscheinlichkeit vorher bekannt ist. Was mit der Wahrscheinlichkeit gemeint ist, erklärt Wildner in einem Leserbrief, den er bereits 2018 an planung&analyse als Reaktion auf ein dort veröffentlichtes Interview mit Prof. Rainer Schnell geschrieben hat: „Das ist ja nicht die Wahrscheinlichkeit, dass ich eine Person auswähle und zum Interview bitte… Vielmehr ist es die Wahrscheinlichkeit, dass die Daten einer Person der Grundgesamtheit in den Pool der erhobenen Daten kommen. Und diese Wahrscheinlichkeit ist nun überhaupt nicht mehr berechenbar. Denn dafür ist es nicht nur erforderlich, dass eine Person ausgewählt wird, sondern auch, dass sie bereit ist, sich interviewen zu lassen. Und das ist leider ziemlich oft nicht der Fall, wenn man nicht Statistisches Bundesamt heißt und vom Gesetzgeber ermächtigt wurde, die Antworten notfalls mit der Verhängung von Bußgeldern zu erzwingen.“ Heute spricht Wildner von Rücklaufquoten etwa bei CATI-Interviews von 10 Prozent und plädiert für eine Mischung aus Quoten- und Zufallsstichproben. Denn: „Zufallsstichproben nach der wissenschaftlichen Definition sind eine Illusion“. 

Auch andere Methoden stehen auf dem Radar

Das ist harter Tobak. Zum einen für die wissenschaftliche Forschung, aber auch für die angewandte Marktforschung. Denn auch sie beruft sich nach wie vor auf die „Zufallsstichprobe als Goldstandard“, wie Frank Knapp, Vorstand des Berufsverband der Marktforscher, kürzlich gegenüber planung&analyse betonte. Und auch den BVM bewegt die Qualität von Methoden. Sein Fachbeirat, dem Vertreter aus Unternehmen, Instituten und Dienstleistern angehören, veröffentlichte kürzlich eine Pressemitteilung mit der Frage: „River Sampling – valide Basis für Markt- und Sozialforschung?“ „Eigentlich nicht“, ist die Antwort der Experten, die sich wiederum auf Wissenschaftler beziehen. River Sampling könne bestenfalls als „Unterhaltungsformat“ eingesetzt werden, heißt es dort. „Kritisch wird es durch eine behauptete Repräsentativität, die aber wissenschaftlich nicht haltbar ist“.

Was ist River Sampling? Laut Esomar-Definition „eine Nicht-Panel-Stichprobe, rekrutiert über die Platzierung von Online-Anzeigen, Angeboten oder ähnlichen Einladungsmechanismen in Echtzeit.“ Wer auf der Webseite einer Publikumszeitschrift eine Frage stellt, mag Antworten bekommen, die auch publiziert werden können. Es ist jedoch keine irgendwie geartete Aussage für die Bevölkerung, einen Teil der Bevölkerung, noch nicht einmal für die Leserschaft der Zeitung möglich, da nicht auszuschließen ist, dass der Link weitergegeben und durch vermehrte Abstimmung von interessierten Kreisen beeinflusst werde kann. Es sagt nur aus: Irgendwer hat zu irgendeinem Thema etwas gesagt. Selbst wenn das sehr viele Menschen sein sollten, sind keinerlei Schlüsse auf andere, als die die mitgemacht haben, möglich.

Warum ist diese Methode, die mit Forschung so wenig zu tun hat, dem BVM-Fachbeirat eine Pressemitteilung wert, die sicherlich im Vorfeld auch zu Diskussionen geführt hat? Die Vermutung liegt nahe, dass ein bestimmter Anbieter gemeint ist, der aber nicht genannt wurde. Knapp nimmt im Gespräch keine Stellung dazu, ob sich die Warnung des Fachbeirates auf ein konkretes Institut bezieht. Aber bei der Beschreibung der Vorgehensweise – River Sampling mit Medienpartnern – denkt der vorbelastete Leser an das Berliner Institut Civey. Nachdem das Unternehmen mit Wahlforschung begonnen hatte, wird es nun zunehmend auch in Wirtschaftsunternehmen genutzt und deren Studien zu gesellschaftlichen Themen als allgemeingültig von Medien zitiert. Civey selbst fühlt sich auf Nachfrage von planung&analyse von dem BVM-Statement gar nicht angesprochen. „Wir gehen nicht davon aus, dass wir damit gemeint sind, da wir ein Online-Panel betreiben“, schreibt eine Sprecherin. Der BVM habe sich nicht an das Institut gewandt oder sich irgendwie vertieft mit der Methodik auseinandergesetzt, heißt es, „so dass eine öffentliche Positionierung zu uns eigentlich nicht vorstellbar ist“.

Ein Methodenstreit über die Vorgehensweise aber auch über einige andere Aspekte rund um das Unternehmen, schwelt seit gut zwei Jahren in der Branche. Vor allem das Meinungsforschungsinstitut Forsa ist unermüdlich damit beschäftigt, Civey zu diskreditieren. Da kommt die Stellungnahme des BVM gerade recht. Was der BVM noch bestreitet, Forsa bringt die beiden Vorgänge direkt zusammen und schreibt in einer Presseerklärung: „Civey nutzt das in ihrem Internet-Auftritt beschriebene und jetzt vom BVM kritisierte Online-River-Sampling zur Rekrutierung von Befragten über spezielle Medienpartner.“ 

Wer fischt und zu welchem Zweck?

Noch einmal zurück zu der Esomar-Diskussion mit Wildner und Sample-Spezialist Jonathan Deitch, der glaubt: „River Sampling – einfach nur zufällig irgendwelche Leute einladen, in eine Umfrage zu kommen, von denen man nicht weiß wer sie sind – das macht keiner mehr in der Branche.“ Aber Deitch erklärt, dass viele Studien mittlerweile Hunderte wenn nicht Tausende verschiedene Quellen nutzen, aus denen sich die unterschiedlichsten Probanden speisen.

Solange es weitere Informationen über diese Probanden gebe und man ein Profil erstellen könne, sei das in Ordnung und würde gar das Vorurteil gegenüber Online-Paneln, sie böten nur Profi-Probanden und Menschen, die durch das Incentive gebiast sind, entkräften. So kann man auch über Online-Spiele auf Umfragen weltbekannter Institute stoßen. Und auch zahlreiche Panel-Anbieter buhlen um Teilnehmer auf Webseiten im Netz, die sie dann qualifizieren und ihnen Umfragen zusteuern.

„Exakt dasselbe macht auch Civey“, erklärt Gerrit Richter, Geschäftsführer von Civey. Die Teilnehmer werden zwar mit River Sampling rekrutiert, die Stichprobenziehung allerdings erfolge nach Quoten. „River Sampling zur Stichprobenziehung zu nutzen, ist kein guter Weg“, sagt Richter. Ein Blick auf die Webseite von Civey zeigt die Vorgehensweise: 1. Rekrutierung auf über 25.000 URLs reichweitenstarker Webseiten von Zeitschriften, 2. Verifizierung der Teilnehmer mit niedrigschwelliger Registrierung und Plausibilitätschecks um eine gezielte Manipulation der Ergebnisse auszuschließen. 3. Quotierte Stichprobe nach verschiedenen Kriterien. Dabei werden Antworten zu einer Umfrage, die in einem Artikel direkt eingebunden sind, in der Regel nicht berücksichtigt. 4. Gewichtung mit klassischen Methoden der Survey-Statistik.

Die Frage ist also, wird im großen Teich gefischt, um Teilnehmer zu finden, die direkt befragt werden oder werden die Fische zuerst von Beifang befreit, nach Größe und Art sortiert, auf ihre Gesundheit untersucht, neu zusammengestellt und dann mit Fragen konfrontiert? Letzteres macht Civey genau wie viele andere Anbieter.

Wie steht die Wissenschaft zu Non-Probability-Samplen?

Eine grundlegende Auseinandersetzung mit der Methode von Civey stand Anfang des Jahres beim Leibniz-Institut für Sozialwissenschaften GESIS auf der Tagesordnung. Die öffentlich geförderte Einrichtung für Sozialforschung mit Sitz in Mannheim hatte eingeladen ebenso wie der Arbeitskreis Deutscher Marktforschungsinstitute (ADM), die Arbeitsgemeinschaft Sozialwissenschaftlicher Institute (ASI) und die Deutscher Gesellschaft für Online Forschung (DGOF). Der Austausch wurde zumindest als Anfang für eine sachliche Auseinandersetzung gewertet, von allen Beteiligten.

Wenige Wochen später stand das Thema Zufalls- und Nicht-Zufallsstichproben bei der 8. Konferenz für Sozial- und Wirtschaftsdaten in Berlin auf dem Programm. Sozialwissenschaftler haben sich mit der „Notwendigkeit der Verwendung von Zufallsstichproben mit bekannten Auswahlwahrscheinlichkeiten“ auseinandergesetzt. Auch hier als Motiv der Kostendruck und „die zurückgehende Bereitschaft der Bevölkerung an der stetig steigenden Zahl an Umfragen teilzunehmen“. Es gibt also Bemühungen in einen ernsthaften Diskurs über den Einsatz von Non-Probability-Samplen einzusteigen. Bei dem Treffen der GESIS in Mannheim hatte ADM-Mitglied Menno Smid (infas) eine grundlegende vergleichende Analyse verschiedenster Methoden angekündigt. Es sollen Erhebungsverfahren wie CATI, Face-to-Face und Online mit verschiedenen Stichprobenverfahren, also Zufallsverfahren und Quotenstichprobe sowie unterschiedlichen Auswahlgrundlagen wie etwa verschieden rekrutierten Online-Panel kombiniert und miteinander verglichen werden. Aufgrund von Corona und nicht vergleichbaren Situationen, konnte dieser Methodenvergleich jedoch noch nicht gestartet werden.

Forsa fährt derweil munter mit seinem Feldzug gegen Civey fort. Dabei konnte der Meinungs- und Marktforscher zuletzt auch Erfolge erzielen. Das Landgericht Köln hat im Juni dem Berliner Start-Up die Behauptung untersagt, es „schneide bei Wahlumfragen überdurchschnittlich gut ab“. Die von Civey betriebene Eigenwerbung sei „irreführend“, hieß es. Das Urteil ist allerdings noch nicht letztinstanzlich entschieden. Nachdem der Presserat bereits 2018 eine Beschwerde von Forsa gegen Civey ablehnt hatte, wurde der Rat der Markt- und Sozialforschung gegen den Newcomer in der Branche angerufen.

Und tatsächlich fand eine der beiden Kammern des Rates, dass Civey gegen Standesregeln verstoßen habe. Es ging vor allem um eine Aussage in einem Prospekt, die “Marketing und Marktforschung und aus einer Hand“ anpries und damit gegen das Trennungsgebot verstoße. Das Urteil wurde vor Inkrafttreten an die Presse durchgestochen, ein Vorgang, der viele Branchenvertreter, vor allem auch den Vorsitzenden, Prof. Wildner, empörte. Nach dem Urteil des Rates war eine Rüge vorgesehen, die aber erst nach einer 14-tägigen Frist und eventuellem Widerspruchsverfahren gültig geworden wäre, denn die Veröffentlichung sei die eigentliche „Strafe“. Civey hat laut Gerrit Richter Widerspruch gegen das Urteil eingelegt. Gespannt darf man sein, welche Kommunikation der Rat der Marktforschung vornehmen wird, sollte sich der Widerspruch als Rechtens erweisen. Keinen Verstoß konnte der Rat gegen das Gebot der Wissenschaftlichkeit feststellen. Dies aber vor allem aus Informationsmangel. Es gab in diesem Punkt aber auch keine Beschwerde von Forsa gegen Civey und es waren keine Belege vorgelegt worden. Warum eigentlich nicht? „Ob die angewendete Methode zur Datenerhebung den wissenschaftlichen Grundsätzen entspricht, kann in diesem Beschwerdeverfahren aus Informationsmangel nicht geklärt werden und sollte außerhalb dieses Verfahrens untersucht werden“, heißt es dazu wörtlich in der Urteilsbegründung des Rates der Marktforschung, die planung&analyse vorliegt. Schade, das wäre doch die Gelegenheit gewesen die Sache mal grundsätzlich zu klären.

Der Geschäftsführer von Civey, Richter, erklärt sich die fortwährende öffentliche Erregung mit dem Erfolg des Unternehmens: Das Panel habe mittlerweile eine Million Teilnehmer. Rund 60 Prozent der Befragungen werden durchgeführt, um diese zu unterhalten. Denn deren Motivation bestehe vor allem darin, die eigene Meinung mit der Meinung der anderen zu vergleichen, als eine Art Selbstvergewisserung.

Festzuhalten bleibt: In dieser Diskussion um Methoden wird weiterhin aneinander vorbei argumentiert und nicht offen miteinander diskutiert. Es fehlt Transparenz und bei manchen Beteiligten auch der Wille dazu. Dass eine Branche so lebhaft über die Anwendung von Methoden streitet ist ein gutes Zeichen. Der Qualitätsanspruch ist in den Köpfen verhaftet und allen Playern wichtig. Kontraproduktiv sind hingegen Polemik und Unterstellungen, verschiedene Aussagen und Trickserei. All dies behindert einen offenen Dialog, zu dem planung&analyse hiermit beitragen möchte.
Bitte loggen Sie sich hier ein, damit Sie Artikel kommentieren können. Oder registrieren Sie sich kostenlos für H+.
Ich habe die Datenschutzbestimmungen zur Kenntnis genommen und akzeptiere diese.
stats