Forscher oder Fälscher?

„Repräsentativität“ ist nicht in Stein gemeißelt

© Pixabay.com
Wer darf den Begriff „Repräsentativität“ für sich in Anspruch nehmen? Darüber ist in der Branche Markt- und Meinungsforschung eine heiße Methoden-Diskussion ausgebrochen, die mit harten Bandagen geführt wird. Beschwerden, Beschimpfungen, Betrugsverdacht inklusive. Was ist da los?
Auch bei Wikipedia ist der Eintrag Repräsentativität derzeit eine Baustelle und harrt der Überarbeitung mit wissenschaftlichen Belegen. Doch in der Branchen-Öffentlichkeit der Meinungs- und Marktforschung ist das Thema derzeit heiß diskutiert. Wer darf den Begriff Repräsentativität für sich in Anspruch nehmen? Der Diskurs setzt das Thema Qualität, Anfang des Jahres durch die Akte Marktforschung von Spiegel Online auf die Tagesordnung gehoben, auf einer etwas elaborierteren Ebene fort. Allerdings wird zum Teil mit harten Bandagen gekämpft: Beschwerden, Beschimpfungen, Betrugsverdacht inklusive. Was ist da los?


Auch dieses Mal sind die Medien im Spiel. Ausgangspunkt der Debatte ist eine Beschwerde, die drei anerkannte Meinungsforschungsinstitute beim Presserat vorbrachten. Das Onlineportal Focus Online hatte eine Studie zitiert, nach der 58 Prozent der Befragten der Meinung waren, dass die deutschen Fußballer Ilkay Gündogan und Mesut Özil nach einem öffentlich gewordenen Foto mit dem türkischen Präsidenten Erdogan „auf keinen Fall“ weiter für die deutsche Nationalmannschaft spielen dürften. Weitere 22 Prozent sagten „eher nein“. Diese Umfrage wurde von der Nachrichten-Plattform Focus Online als „repräsentativ“ bezeichnet. Das war im Mai dieses Jahres und hat in der Öffentlichkeit weiter kein Aufsehen erzeugt. Eine von Hunderten Befragungen, die einem in den Medien täglich begegnen.

In Furor versetzt hingegen hat diese Umfrage offenbar die Meinungsforscher von Forsa, Infas und der Forschungsgruppe Wahlen, sie kritisieren die fehlende journalistische Sorgfalt. Focus Online hätte diese Umfrage nicht veröffentlichen dürfen, weil das Befragungsdesign nicht den „allgemein anerkannten wissenschaftlichen Kriterien der empirischen Sozialforschung“ entspreche, so die Begründung für die Beschwerde beim Presserat. Zwei andere Studien mit ähnlicher Fragestellung (von Forsa und Emnid) hätten ganz andere Ergebnisse geliefert.
Was da stimmt und was nicht, sollte der Presserat entscheiden. Das Urteil brachte nicht die erhoffte Art der Entscheidung. Das Gremium sieht keinen Verstoß gegen die Sorgfaltspflicht auf Seiten des Online-Mediums.


Der Presserat hat sich übrigens schon einmal mit Online-Umfragen beschäftigt. Ein Leser hatte sich beschwert, weil er auf der Webseite des Münchner Merkurs bei einer Befragung mehrfach mitmachen konnte. Er tat es 192 Mal. Das Gremium verwies auf den Pressekodex und entschied: „Nicht-repräsentative Online-Umfragen müssen als solche gekennzeichnet werden.“ Doch damals lag der Fall anders, erklärt der Presserat am 4. Dezember. Die Umfrage war von der Zeitschrift selber angestroßen und man wusste sehr wohl, dass Mehrfachabstimmungen möglich sind.

Die Medien sollen besser aufpassen

Auch der ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute blickt mit „großer Sorge“ auf die Medien und sieht, dass in der Berichterstattung „Umfrageergebnisse vermehrt als repräsentativ bezeichnet werden, auch wenn diese nicht repräsentativ sind“. In einem offenen Brief spricht der Verband, dessen Mitglieder 80 Prozent des Branchenumsatzes erzielen, von einem „unhaltbaren Zustand“. Neben einem Appell an die Medien, dass „die Bezeichnung ‚repräsentativ‘ in der Berichterstattung korrekt verwendet wird“, erarbeitet der Verband derzeit Transparenzkriterien. Die Mitglieds-Institute sollen sich kommitten, bestimmte Angaben verpflichtend mitzuteilen oder eine bestimmte Vorgehensweise einzuhalten. Der Prozess ist aber noch nicht abgeschlossen.

Offen bleibt die Frage, wer wirklich entscheiden kann, ob eine Umfrage repräsentativ ist oder nicht. Wer sich auf die Suche danach begibt, was eigentlich Repräsentativität ist und wer sie für sich reklamieren darf, verirrt sich schnell im Dickicht der Definitionen, Auslegungen und Behauptungen.

Repräsentativität ist ein Begriff für Laien

„In der mathematischen Statistik gibt es den Begriff Repräsentativität nicht, der wird nur von Laien verwendet“, sagt Rainer Schnell, Professor für Empirische Sozialforschung an der Universität Duisburg-Essen. Das stimmt. Viele Menschen verstehen intuitiv, dass es sich um ein kleines, aber kongruentes Abbild der großen Masse handelt. Wie praktisch, dass es reicht, eine kleine Menge von Menschen zu befragen und man dennoch eine Aussage über alle treffen kann! Umgekehrt haftet einer Studie, die nicht repräsentativ genannt werden kann, irgendwie ein Makel an. Fachleute kann das zum Verzweifeln bringen: Der erfahrene betriebliche Marktforscher Stefan Althoff schreibt: „Es gibt sie immer wieder, die Schlaumeier, die bei einer Präsentation die Frage stellen: ‚Ist die Studie denn auch repräsentativ?‘ Und nicht die geringste Ahnung haben.“

Ahnung, zum Beispiel, dass Repräsentativität in der Marktforschung nicht zwingend ist, dass es vielfältige Studien gibt, wo dieser Begriff überhaupt nicht relevant ist, dass man auch wertvolle Insights aus einer Gruppendiskussion mit zehn Menschen ziehen kann. Stephan Grünewald vom Kölner Rheingold Institut hat daher schon vor vielen Jahren in einem Beitrag in planung&analyse von „psychologischer Repräsentativität“ gesprochen und sie gegen die statistische Repräsentativität abgegrenzt. Diese bezeichnete er damals als „Forschungs-Fetisch“, der in den wenigsten Fällen gewährleistet und in vielen Fällen auch nicht erforderlich sei. Üblich und eigentlich auch erforderlich ist sie allerdings, wenn man die Meinung der Deutschen verkünden, deren mögliches Wahlverhalten erfahren oder wenn man wissen möchte, welche Deutschen wie die Medien nutzen.

Die Tücke steckt im Detail, beziehungsweise in der Definition. Zuerst: Wie definiert man die Grundgesamtheit? Alle Deutschen? Oder nur alle, die wählen dürfen? Oder alle Deutschen ab 16 Jahren? Oder nur die, die in einem eigenen Haushalt leben? Man braucht also zweitens eine Auswahlgrundlage. Jahrzehnte galt dafür das Telefonbuch als geeignete Grundlage. Da standen (fast) alle drinnen und es hatten auch (fast) alle ein Telefon.

Bei Online hat man schon mit der Grundgesamtheit ein Problem, da es kein Verzeichnis aller Menschen gibt, die das Internet nutzen. Für Professor Schnell können Online-Umfragen daher per se nicht repräsentativ sein, weil man nicht abschätzen könne, wie viele Menschen das Internet nicht nutzen und weil die, die es nutzen, sich systematisch von den anderen unterscheiden. Dafür gebe es zahlreiche Studien. „Das ist nicht korrigierbar, durch kein Gewichtungsverfahren“, so Schnell.

Die Deutsche Gesellschaft für Online Forschung (DGOF) verweist in ihrem Statement zur Thema Repräsentativität darauf, dass gemäß der ARD/ZDF-Onlinestudie 90 Prozent der Personen über 14 Jahre hierzulande einen Internetzugang haben. Für den Verband ist entscheidend „Datengrundlagen und Gewichtungsverfahren offenzulegen und zu zeigen, ob die erhobenen Daten repräsentativ sind und wenn ja für wen – für junge Erwachsene von 18 bis 29 Jahren, Besucher der Gamescom, Leser einer Zeitung oder Wahlberechtigte in Deutschland – und so den Raum für Verzerrungen so gering wie möglich zu halten. Nur so kann das Vertrauen in die Branche nachhaltig gestärkt werden.“

In den 60er Jahren gab es ein Demoskopen-Duell

Thomas Wind hat gerade ein Arbeitspapier zu „Demoskopie, Medien und Politik – Ein Schulterschluss mit Risiken und Nebenwirkungen“ bei der Otto-Brenner-Stiftung der Gewerkschaft IG Metall herausgegeben. Darin erklärt er, dass der allseits verwendete und akzeptierte Standard Repräsentativität durchaus nicht unumstritten ist und es nie war: „Auseinandersetzungen über die ‚richtige‘ Auswahlmethode gab es schon in den 1950er/60er Jahren. Rudolf Wildenmann, Politologie-Professor in Mannheim und einer der Gründungsväter des Zentrums für Umfragen, Methoden und Analysen (ZUMA), propagierte die auf der Wahrscheinlichkeitsrechnung basierende strikte Zufallsauswahl der zu Befragenden. Elisabeth Noelle-Neumann, Gründerin des Allensbach-Instituts, machte sich dagegen für Quotenstichproben stark, die in der Umfragepraxis einfacher zu realisieren sind. So entspann sich im Vorfeld der Bundestagswahl 1965 ein „Demoskopen-Duell“. Plattform des Streits war die ZEIT, auf deren Seiten man sich gegenseitig unsaubere Methoden vorwarf. Selbst ein Rechtsstreit stand im Raum, wurde allerdings letzten Endes abgewendet.

Newcomer in der Branche mag das überraschen: Noelle-Neumann gilt als Ikone der Meinungsforschung in Deutschland. Sie gehört zu den wenigen vom BVM mit dem Ehrenpreis der Deutschen Marktforschung ausgezeichneten Personen und ihr Buch „Alle, nicht jeder – Einführung in die Methoden der Demoskopie“ gilt als Standardwerk. Sie hat also keine Zufallsstichproben befürwortet, sondern ein Quotenmodell. Eine Quotenauswahl versucht, die Grundgesamtheit mit bestimmten demografischen Merkmalen – zum Beispiel Geschlecht, Alter, Bildung, Wohnort – nachzubilden. Als Grundlage dienen amtliche Statistiken. Das von Noelle-Neumann gegründete Institut Allensbach arbeitet bis heute so, die Ergebnisse werden regelmäßig in der FAZ veröffentlicht.

Zufall oder Willkür – das ist hier die Frage

Nun sehen wir, dass der Begriff Repräsentativität keinesfalls so in Stein gemeißelt ist, wie es derzeit einige Akteure darstellen. Freilich, das Gros der Institute schwört auf die Zufallsauswahl, bei der jeder aus der Grundgesamtheit eine bekannte Wahrscheinlichkeit hat, befragt zu werden. Für den Hardliner Schnell kommt eigentlich keine andere Methode in Frage. „Alles andere ist Willkür“, sagt er im Gespräch mit planung&analyse.

„Eine solche Zufallsstichprobe kann repräsentativ sein, sie ist es aber nur zufällig“, erklärt Wind in seinem Papier. Die Unsicherheit lässt sich berechnen und quantifizieren. Deshalb gibt es einen Fehlerkorridor. Je größer die Stichprobe, umso kleiner ist der Fehler. Üblich sind Stichproben von n=1000. Über die Nennung und Darstellung des statistischen Fehlers gibt es ebenfalls eine lange Debatte, aber dies nur am Rande. Im vergangenen Jahr vor der Bundestagswahl sind einige Medien wie ZEIT und Süddeutsche dazu übergegangen, keine dünnen Linien, sondern dicke Striche in ihre Charts aufzunehmen, um den Fehler zu visualisieren. Die Presse scheint also lernfähig.

Laut Wind, Gründer und Geschäftsführer des Instituts für Zielgruppenkommunikation (IfZ), diplomierter Volkswirt und promovierter Sozialwissenschaftler, geht die Theorie der Zufallsstichprobe aber nicht nur davon aus, dass jedes Element dieselbe Chance haben muss, gezogen zu werden, sondern auch, dass alle Elemente der Stichprobe auch tatsächlich befragt werden. Nur dann sei der Rückschluss von der Teilmenge auf die Grundgesamtheit erlaubt. In der Praxis – das weiß jeder Forscher – sind immer weniger Menschen erreichbar und bereit, ihre Meinung zur Verfügung zu stellen, auch wenn sie mehrfach angerufen werden. Wie anspruchsvoll es geworden ist, Umfragen Face-to-Face oder per CATI zu komplettieren, beschreibt auch Martina Winicker von IFAK in planung&analyse (5/2018).

Die tatsächliche Ausschöpfungsquote wird bei Umfragen in der Regel nicht veröffentlicht. Sind es 50 Prozent oder doch wesentlich weniger? In den USA hat das anerkannte PEW Research Center für Befragungen per Festnetztelefon bereits 2012 eine Ausschöpfungsquote von unter 10 Prozent ermittelt. Die Institute lösen das Problem mit der anschließenden Gewichtung der Daten. Die hier zur Anwendung kommende Methode unterliegt weitgehend der Geheimhaltung.

Können Online-Umfragen repräsentativ sein?

Zurück zu Focus Online und dem Ärger der Meinungsforscher. Die erwähnte Umfrage um das Verbleiben der türkischstämmigen Fußballspieler in der Nationalmannschaft stammte von Civey, einem Meinungsforschungs-Startup aus Berlin, das seit 2016 den Markt in Unruhe versetzt. Auf Webseiten von Online-Medien werden Leser mit Online-Fragebögen um ihre Meinung gebeten. Wer einmal abstimmt und bereit ist, sein Alter, seine Postleitzahl und seine E-Mail-Adresse anzugeben, ist am Haken und wird mit weiteren Umfragen zu tagespolitischen und gesellschaftlichen Themen versorgt, sowohl auf der aktuellen News-Webseite als auch später per E-Mail. Die Macher von Civey berichten, dass die Nutzer sich gerne von Frage zu Frage tragen lassen, die Beantwortung wie eine Art Spiel empfinden. Aber: Wer hier seine Stimme abgibt, entscheidet sich selbstständig und freiwillig dafür, dies zu tun. Belohnt wird er lediglich damit, dass er erfährt, was die anderen denken, ob er mit seiner Meinung im Mainstream liegt oder Außenseiter ist. Die Stichprobe ist also nicht zufällig. Für manchen genügt schon diese Tatsache, um Civeys Meinungsforschung für unseriös zu halten. Dazu zählt auch Professor Schnell und die drei erwähnten Meinungsforscher.

Nun ist Civey aber nicht das erste und nicht das einzige Unternehmen, das mit Non-Probability-Samplings, also nicht zufällig erhobenen Stichproben, arbeitet. Alle Online-Panels gehen diesen Weg, das britische Unternehmen YouGov seit einigen Jahren auch in der Meinungsforschung mit dem Anspruch repräsentativer Aussagen. Gegen diese Methoden wurde in den Anfängen ebenfalls scharf geschossen. Ein Zeitzeuge berichtet, dass Elisabeth Noelle-Neumann aus Protest den Raum verließ, als vor rund 20 Jahren auf einem Kongress der erste Vortrag zur Online-Forschung gehalten wurde.

Aber heutzutage sind Online-Studien weitgehend anerkannt, werden immer mehr zum Mainstream, wenn auch noch nicht in der Meinungs- und Wahlforschung. Dass sie keine bevölkerungsrepräsentativen Ergebnisse nach der harten wissenschaftlichen Lesart liefern können, wird kaum jemand bezweifeln: „Man muss deutlich sagen, bei Online fehlt eine ganze Bevölkerungsgruppe“, erklärt Holger Geißler, Geschäftsführer von Dcore. Das sei allerdings ein Vorwurf, den man mittlerweile auch anderen Methoden durchaus machen kann. Weil kaum noch jemand Lust hat, sich per Telefon befragen zu lassen. Das zeigen die niedrigen Ausschöpfungsquoten.

Heftige Auseinandersetzung mit Newcomer Civey

Aber dies alles erklärt nicht die Aufregung, die rund um das Startup Civey derzeit tobt. Thorsten Thierhoff, Geschäftsführer von Forsa, sieht in dem Vorgang, den man vor den Presserat brachte, nur einen „Mosaikstein“. Es gehe insgesamt darum, „das Ansehen der empirischen Sozialforschung nicht durch Civey zu gefährden“. Er beruft sich auf die wissenschaftliche Tradition der letzten über 100 Jahre und zählt in einem Schreiben an planung&analyse die methodischen Schwachpunkte auf: das Stichprobenverfahren, das sogenannte River-Sampling, die Art und Anzahl der Webseiten, die auf Civey verlinken, die Formulierung vieler Fragen, den Kontext der Fragestellungen, der Ergebnisberechnung und Darstellung usw. usf.“ Da scheint dieses kleine Startup doch tatsächlich an den Grundpfeilern der Markt-, Meinungs- und Sozialforschung zu rütteln. Und die Heftigkeit, die bei deren Verteidigung an den Tag gelegt wird, erschreckt. In verschiedenen öffentlichen Foren zum Beispiel beim Mainzer Medien Disput (MMD) in Berlin im Mai 2017 kam es zu einem heftigen verbalen Schlagabtausch zwischen Repräsentanten der „alten Schule“ und Vertretern der neuen Richtung. Auch in verschiedenen Veröffentlichungen, zuletzt sogar in der Tageszeitung taz, wurden Beschimpfungen zitiert. Richtig heftig wird es, wenn man sich Äußerungen in den sozialen Medien anschaut. Ein anonymer Account namens Civey Watch auf Twitter schießt gegen jeden, der in seinen Posts das Wort Civey erwähnt und schreckt dabei auch nicht vor Beleidigungen zurück. Wer dahinter steckt, ist nicht bekannt. Thierhoff von Forsa schreibt dazu: „Auch wenn es besser wäre, wenn Civey Watch offen und nicht anonym agieren würde, sind die dort dargestellten Sachverhalte nach unserer Beobachtung korrekt und zeugen von großer Sachkenntnis.“ Die Vorwürfe gegen Civey beschränken sich längst nicht auf unplausible Umfragen und den Begriff Repräsentativität, mittlerweile geht es auch um den Umgang mit Mitarbeitern, einzelne Eigentümer des Startups – etwa Tagesspiegel-Herausgeber Sebastian Turner – oder um die Finanzierung des Startups. Und jeder, der auf Twitter oder einer Webseite den Begriff Civey verwendet, wird ebenfalls von dem anonymen Account angegriffen.

Geschäftsführerin Janina Mütze hat alle Hände damit zutun, sich gegen solche Anfeindungen zu wehren und zu schützen. „Wir fokussieren uns weiterhin darauf, unser Kerngeschäft auszubauen“, sagt sie im Gespräch mit planung&analyse. Mütze und ihr Team – mittlerweile 50 Forscher – berufen sich auf eine Methodik, die vor allem an der Hochschule Rhein-Waal entwickelt wurde. Jüngst habe auch Professor Ricarda Bouncken, Inhaberin des Lehrstuhls für Strategisches Management und Organisation an der Universität Bayreuth, eine intensive Methodenstudie durchgeführt und kam zu dem Schluss, dass „die von Civey eingesetzten Befragungstechnologien als berechtigte und dienliche Erhebungsmethode neben etablierten Methoden einzuordnen“ sind.
Da steht also Aussage gegen Aussage. Ob es bei der öffentlichen Diskussion wirklich nur um Wissenschaftlichkeit geht, bezweifelt auch Geißler. Naheliegend sind hingegen wirtschaftliche Interessen, zumal wenn man weiß, dass Civey mittlerweile in ein paar Hundert Onlinediensten eingebaut ist und die Umfragen zu allen möglichen Dingen den Medien sehr kostengünstig zur Verfügung stellt.

Die Fronten sind also verhärtet. Es ist kaum zu erwarten, dass die Diskussion nach dem Urteil des Presserates verstummt. Die Personen, die hinter Civey-Watch stehen, verlieren vielleicht irgendwann die Lust an der Pöbelei oder schlagen so über die Strenge, dass Twitter den Account sperrt. Gesucht wird hingegen ein konstruktiver Umgang mit dem Thema.

„Ich sehe bei Civey eine zukunftsfähige Art, Menschen zu befragen, die man anders gar nicht mehr erreichen kann“, erklärt dazu Geißler. „Lasst uns doch zusammensetzen und überlegen, wie man in Zukunft repräsentativ befragen könnte. Da jede Methode ihre Stärken und Schwächen hat, wäre es doch vielleicht sinnvoll, die Methoden zu kombinieren.“ Ähnlich argumentiert auch die DGOF und plädiert für ein „gemeinsames Bestreben und Erforschen, mit welcher Methode oder Methodenkombination eine bestmögliche Repräsentativität erreicht werden kann“. Auch Thomas Perry von der Agentur Q begrüßt die Diskussion über neue Stichprobenverfahren in einem Blogbeitrag auf Mafolution. Er sieht die Methode des Newcomers Civey durchaus kritisch, fordert jedoch eine prinzipielle „Qualitätsprüfung der Verfahren anhand der tatsächlichen Messergebnisse und ihrer Abbildungsqualität der Wirklichkeit“. Das sei in vielen Branchen so üblich. „Warum nicht in der Markt- und Sozialforschung?“, fragt Perry. Diese Norm zu entwickeln und überprüfen, müssten dann unabhängige Experten ohne jede Interessenkollision übernehmen.

Erschienen in planung&analyse 6/2018
Themenseiten zu diesem Artikel:
Ich habe die Datenschutzbestimmungen zur Kenntnis genommen und akzeptiere diese.
stats