Methodendiskussion

Herausforderungen bei der Stichprobenziehung in der Markt- und Sozialforschung

   Artikel anhören
© pixabay.com
Es ist eine Binsenweisheit, dass selbst große Stichproben irreführend sein können, wenn sie verzerrt sind oder, wie Markt- und Sozialforscher sagen: wenn sie nicht repräsentativ für die Grundgesamtheit sind. Das macht Repräsentativität so wichtig. Ein Thesenpapier von Prof. Raimund Wildner.
Für die Ziehung einer repräsentativen Stichprobe gibt es zwei grundlegend unterschiedliche Methoden: Die erste Methode ist die Quotenstichprobe. In Lehrbüchern über Stichproben wird das Verfahren meist nicht einmal erwähnt (z.B. Thompson 2012, Chaudhuri/Stenger 2005); oder nur ganz kurz gestreift (etwa Cochran 1977, S. 135f). Der einfache Grund dafür: Es gibt keine Theorie der Quotenstichproben, nicht einmal ansatzweise. Die zweite Methode ist die Zufallsstichprobe, für die wir mehrere Möglichkeiten haben, wie einfache oder geschichtete Zufallsstichproben, Cluster-Stichproben oder zweistufige Stichproben, um nur die wichtigsten zu nennen. Für all diese Verfahren gibt es in den genannten Lehrbüchern vollständig ausgearbeitete Theorien, es gibt Formeln für die Schätzung des Stichprobenmittelwerts und seiner Varianz. Aber diese Theorien und diese Formeln basieren alle auf der Annahme, dass die Wahrscheinlichkeit für jedes Element der Grundgesamtheit, Teil der Stichprobe zu werden, vor der Ziehung der Stichprobe berechnet werden kann und größer als null ist.


An diesem Punkt müssen wir definieren, was mit „Teil der Stichprobe werden“ gemeint ist. Dazu reicht es nicht aus, zur Teilnahme an einer Umfrage aufgefordert zu werden. Eine Person wird nur dann Teil der Stichprobe, wenn ihre Daten auch tatsächlich erhoben werden, das heißt, wenn die Person an der Umfrage auch tatsächlich teilnimmt. Weigert sich eine Person, an der Umfrage teilzunehmen, dann war die Wahrscheinlichkeit, die für diese Person vorab berechnet wurde, falsch.

Ein sehr einfaches Beispiel kann dies verdeutlichen. Nehmen wir an, wir wollen mit einer einfachen Zufallsstichprobe Daten von 1000 Personen aus einer Grundgesamtheit von 10 Mio. Personen erheben. Für jede Person der Grundgesamtheit errechnet sich eine Wahrscheinlichkeit von 1000/10 Mio. oder 1/10.000. Nehmen wir weiter an, die Teilnahmebereitschaft liegt bei 10 Prozent, was heutzutage bei Telefonumfragen durchaus üblich ist. Es können also de facto nur 1 Million Personen befragt werden. Für die 9 Million Personen, die sich weigern, an der Umfrage teilzunehmen, beträgt die Wahrscheinlichkeit, in die Stichprobe zu kommen, nicht 1/10.000, sondern 0. Für die 1 Million Personen, die bereit sind, unsere Fragen zu beantworten, beträgt sie auch nicht 1/10.000, sondern 1/1000, da wir ja unsere angestrebte Stichprobengröße von 1000 erreichen müssen. Letztendlich ist für jede Person der Grundgesamtheit die effektive Wahrscheinlichkeit, Teil der Stichprobe zu werden, nicht das, was wir im Voraus errechnet haben, sondern etwas, das ziemlich weit davon entfernt ist.


Nun ist Nonresponse ja kein neues Problem. Es ist so alt ist wie die Markt- und Sozialforschung selbst. Noch vor Jahrzehnten, als Responseraten von 70 Prozent und mehr möglich waren, konnten Forscher davon ausgehen, dass die Annahme der vorab berechenbaren Auswahlwahrscheinlichkeiten näherungsweise erfüllt war. Statistiker haben eine große Erfahrung mit Annahmen, die näherungsweise gültig sind. Aber heutzutage, mit Rücklaufquoten bei Telefonumfragen von oft 10 Prozent oder weniger, ist diese Annahme nicht einmal näherungsweise gültig, sie ist schlicht und einfach falsch.

Natürlich gibt es eine Theorie über Nonresponse. Es gibt gute Lösungen für Item-Nonresponse, für den Fall also, dass nur einige Fragen nicht beantwortet wurden, andere aber schon. Diese Antworten sowie die Antworten anderer Personen können verwendet werden, um die Lücken durch Imputation zu füllen (vgl. Rubin 1987).

Das Problem mit Non-Response ist nicht gelöst

Es gibt jedoch keine wissenschaftlich fundierten und für die Praxis befriedigenden Lösungen für Unit-Nonresponse, für den Fall also, dass eine Person sich weigert, überhaupt an einem Interview teilzunehmen. Wir wissen, dass Unit-Nonresponse zu keinen Verzerrungen führt, wenn die erhobenen Daten unabhängig von der Wahrscheinlichkeit der Teilnahme sind. Wir wissen aber auch, dass diese Annahme im Allgemeinen nicht zutrifft. Es gibt weiter eine Theorie für den Fall, dass eine Zufallsstichprobe der Verweigerer durch eine Erhöhung des Aufwands doch noch erhoben werden kann (z.B. Thripati et.al. 1997). Doch auch dies ist nicht realistisch. Schließlich gibt es Versuche, die Nonresponse-Wahrscheinlichkeit zu schätzen und für eine Gewichtung zu nutzen. In der Mehrzahl der Fälle lassen sich dadurch die Verzerrungen durch Nonresponse reduzieren, in einigen Fällen erhöhen sich diese jedoch (vgl. Blumenstiel/Gummer 2015), so dass auch diese Lösung nicht befriedigend ist.

Die Herausforderung wird durch den Trend zu Online-Stichproben noch größer. Dabei ist die Tatsache, dass nicht alle Haushalte über das Internet erreichbar sind, noch das kleinere Problem. Denn laut Statistischem Bundesamt (2019) haben immerhin 93,5 Prozent aller Haushalte einen Internetzugang. Zum Vergleich: Die Ausstattungsquote mit Festnetztelefon ist 86,4 Prozent. Das größere Problem ist, dass es für Online-Stichproben keine Auswahlgrundlage gibt. Für Telefonumfragen gibt es das Random Digit Dialing, für persönliche Umfragen das Random-Route-Verfahren. Beide Verfahren erlauben es, die Person, die um ein Interview gebeten wird, zufällig auszuwählen. Eine Liste der E-Mail-Adressen, aus der man zufällig auswählen kann, gibt es dagegen nicht. Und selbstverständlich kommt auch hier das Nonresponse-Problem noch dazu.

Im Ergebnis zeigt sich, dass wir ein Problem haben, das von der Wissenschaft nicht gelöst ist. Das trifft weniger für die amtliche Statistik zu, die vom Gesetzgeber teilweise ermächtigt wurde, die Teilnahme mit Bußgeldern zu erzwingen, definitiv aber für die Marktforschung, die solche Möglichkeiten nicht hat und auch nicht haben will. In der Konsequenz müssen wir erkennen: Die in den Lehrbüchern beschriebene Zufallsstichprobe ist so etwas wie das Einhorn der Marktforschung: Es ist wunderschön, jeder weiß auch, wie es aussieht, aber – leider! – noch niemand hat es bisher gesehen.

Bedeutet dies, dass die Zeit der repräsentativen Stichprobenziehung in der Marktforschung vorbei ist, wie es ein Marketingmanager auf einer Esomar-Konferenz schon vor zehn Jahren formulierte? Sind repräsentative Stichproben durch Big Data obsolet geworden?Ganz sicher nicht. Denn wenn für ein Problem geschätzt werden muss, wie viel Geld zur Lösung des Problems benötigt wird, dann braucht man zuverlässige Zahlen darüber, wie viele Menschen von dem Problem betroffen sind.

Bedeutet dies, dass bei der Stichprobenziehung alles erlaubt ist? Ganz und gar nicht. Im Gegenteil. Die Tatsache, dass eine tragfähige Theorie fehlt, macht es viel schwieriger, zu repräsentativen Stichproben zu gelangen. Dies erfordert große Sorgfalt und viel Erfahrung.Dazu gibt es neben den Anstrengungen, die Responserate zu erhöhen, vor allem drei Strategien: Die erste Strategie ist, so weit wie möglich Zufallsverfahren anzuwenden und nicht-zufällige Verfahren so spät wie möglich zum Einsatz zu bringen. So kann es sinnvoll sein, Telefoninterviews mit Random Digit Dialing zu beginnen, gegen Ende der Feldzeit dann aber nur noch Interviews mit Personen durchzuführen, die zu einer ausgewogenen Struktur der Gesamtstichprobe beitragen.

Gefordert: Diskussion zwischen Praktikern und Wissenschaftlern

Die zweite Strategie ist im Grunde die, welche bei Quoten-Stichproben angewendet wird. Man weiß, dass bei Quotenstichproben jeder Interviewer bei der Auswahl seiner Interviewpartner einen Bias hat. Deswegen versucht man durch den Einsatz vieler und unterschiedlicher Interviewer zu erreichen, dass sich die Verzerrungen ausgleichen. Ähnlich können bei der Anwerbung von Online-Panel-Teilnehmern durch die Nutzung unterschiedlicher Rekrutierungsmöglichkeiten sich die mit den Verfahren verbundenen Verzerrungen ausgleichen (vgl. Pete Comley 2007).

Und schließlich gibt es die Möglichkeit, die Ergebnisse zu gewichten, was die Verzerrung zwar oft verringern, aber normalerweise nicht beseitigen und manchmal sogar verschlimmern kann. Besonders gute Möglichkeiten gibt es hier für Online-Panels, bei denen aufgrund früherer Erhebungen viele Informationen zu den Panel-Teilnehmern vorliegen.

Aber all diese Möglichkeiten wurden von der Praxis entwickelt und sind theoretisch nicht begründet. Notwendig ist eine offene Diskussion zwischen Praktikern und Wissenschaftlern über nicht zufällige Wege der Stichprobenziehung. Dazu müssen die Praktiker ihre Verfahren transparent machen, und die Wissenschaftler müssen akzeptieren, dass die traditionelle Zufallsstichprobe, bei der man von jedem Element der Grundgesamtheit im Voraus weiß, wie wahrscheinlich es ist, dass das Element Teil der Stichprobe wird, nicht mehr durchführbar ist. Vielleicht kann man ja bei der Quotenstichprobe beginnen, bei der Interviewer die Befragten aus ihrem sozialen Umfeld auswählen. Ist es etwa möglich, dass man hier weiterkommt, wenn man Theorien zu sozialen Beziehungen nutzt? Und diese dann an durchgeführten Quotenstichproben testet?
Bitte loggen Sie sich hier ein, damit Sie Artikel kommentieren können. Oder registrieren Sie sich kostenlos für H+.
Ich habe die Datenschutzbestimmungen zur Kenntnis genommen und akzeptiere diese.
stats