Datenqualität durch Data Cleaning verbessern? Die Spreu vom Weizen trennen

Montag, 11. September 2017
Wie kann man unaufmerksame oder unaufrichtige Umfrageteilnehmer aufspüren?
Wie kann man unaufmerksame oder unaufrichtige Umfrageteilnehmer aufspüren?
Foto: Pixabay.com

Die Datenqualität ist entscheidend für jede quantitative Online-Studie. Nur wenn die Qualität stimmt, können glaubwürdige und aussagekräftige Handlungsempfehlungen gegeben werden. Auch wenn wir davon ausgehen, dass Panelteilnehmer grundsätzlich ehrlich und sorgfältig antworten, ist dies nicht immer der Fall. FactWorks und Research Now haben in gemeinsamen Studien erforscht, wie man unaufmerksame oder unaufrichtige Umfrageteilnehmer am besten aufspürt. Adrian Becker von FactWorks berichtet über die Studienergebnisse.
Um in qualitativ hochwertigen Panels unaufrichtige Teilnehmer zu identifizieren, werden üblicherweise Qualitätschecks wie Fangfragen, die Erfassung der Teilnahmegeschwindigkeit, eine Inkonsistenz-Prüfung, die Auswertung offener Antworten und Ähnliches durchgeführt. FactWorks und Research Now wollten wissen, wie effektiv diese Instrumente sind.
Mit einer internationalen Studie in sechs Ländern wurde dies überprüft. Teilnehmer aus Deutschland, Großbritannien, Frankreich, Kanada, Australien und den USA wurden hierbei Mitte bis Ende September 2016 zu einer Online-Umfrage zur Bewertung eines neuartigen Online-Fanclubs für Sport eingeladen. Zunächst wurde mit Hilfe typischer Screener-Fragen das generelle Interesse an der Sportart ermittelt, die je nach Land unterschiedlich gewählt wurde. Anschließend wurde das Konzept eines neuen Online-Fanclubs vorgestellt und das Interesse sowie die Club-Vorteile evaluiert. Teil der Umfrage waren die üblichen Qualitätschecks, die sich sowohl auf die Screener-Fragen als auch auf den Hauptteil des Fragebogens bezogen. Als Referenzpunkt zur Beurteilung, ob ein Studienteilnehmer tatsächlich unaufmerksam oder unaufrichtig war, wurde zusätzlich eine Maximum-Difference-Scaling-Übung, kurz MaxDiff, in der Umfrage verwendet.

MaxDiff-Verfahren dient als Referenzpunkt

MaxDiff ist ein conjoint-ähnliches Verfahren, um Präferenzen für bestimmte Produkteigenschaften zu evaluieren. In unserer Studie wurden hierzu verschiedene Vorteile einer Sportclubmitgliedschaft wie vergünstigte Tickets oder Zugang zu Livestreams beliebter Spiele präsentiert und der Studienteilnehmer sollte die für sich wichtigsten Vorteile nennen. Hierzu wurden jedem Studienteilnehmer eine Reihe von Szenarien, in denen wir mehrere Clubvorteile vorstellten, präsentiert. Der Studienteilnehmer sollte aus dieser Liste den für ihn wichtigsten und unwichtigsten Vorteil auswählen.

Die Vorteile wiederholten sich dabei in den Szenarien, jedoch in wechselnden Kombinationen. Dabei ist die Grundannahme, dass aufmerksame und ehrlich antwortende Personen entsprechend ihrer wahren Präferenzen antworten und sich kaum widersprechen. Sie wählen konsistent ihre präferierten Vorteile, auch wenn diese in einer wechselnden Kombination mit anderen Produkteigenschaften aufgelistet werden.

Adrian Becker

Adrian Becker
(Bild: Factworks)
ist Director bei FactWorks in Berlin und leitet Kundenprojekte aus den Bereichen ICT, E-Commerce und Financial Services.
Mit dem MaxDiff-Test lassen sich daher Teilnehmer wirkungsvoll identifizieren, die widersprüchliche, inkonsistente Entscheidungen treffen. Das Besondere an der Methode ist, dass nicht nur willkürliches Antwortverhalten offenbart wird, sondern auch bewusste Unaufrichtigkeit.

Natürlich können auch an sich ehrliche Teilnehmer kurzfristig unaufmerksam sein und versehentlich eine Antwort geben, die im Widerspruch zu einer vorherigen Auswahl steht.

Solche Personen müssen nicht zwangsläufig als schlecht eingestuft werden. Ziel ist es vielmehr, eine angemessene Schwelle zu definieren, ab der der Grad der Widersprüchlichkeit so groß ist, dass ein Studienteilnehmer zu Recht aussortiert wird. Hierfür erstellten wir in unserer Studie eine Inkonsistenz-Punktzahl, die auf Erfahrungswerten aus vergangenen Studien basierte und sich an einem typischen Bereinigungsanteil von fünf bis zehn Prozent orientierte.

Vergleich der klassischen Qualitätschecks

Für alle Länder wurden im MaxDiff-Verfahren dieselben Kriterien definiert, um unaufrichtige Studienteilnehmer zu identifizieren. Der Anteil dieser Studienteilnehmer lag zwischen acht Prozent in den USA und 15 Prozent in Frankreich. In Deutschland wurden 13 Prozent der Teilnehmer als unaufrichtig oder ungenau identifiziert.
Dieses Ergebnis wurde nun als Referenz benutzt und den Aussagen aus den klassischen Qualitätschecks gegenübergestellt. Auf diese Weise konnten die klassischen Qualitätskriterien miteinander verglichen und im Hinblick auf Trefferquote und Genauigkeit beurteilt werden.
Wie viele Schummler gibt es im Land?
Wie viele Schummler gibt es im Land? (Bild: Factworks/p&a)
Die Trefferquote ist der Anteil der durch die klassischen Kriterien korrekt erkannten unaufrichtigen Studienteilnehmer. Sie allein ist allerdings noch kein geeignetes Gütemaß, da die Trefferquote für ein Qualitätskriterium automatisch höher ist, wenn sie sehr viele Personen als unaufrichtig oder unaufmerksam klassifiziert. Die Genauigkeit der Vorhersage muss deshalb ebenfalls berücksichtigt werden. Diese ergibt sich als Anteil der tatsächlichen unaufrichtigen Studienteilnehmer unter allen, die von der Methode als solche identifiziert wurden.

Fangfragen – verbreitet, aber nicht sinnvoll

Spezielles Augenmerk richteten wir auf die sogenannten Fangfragen. Dieser populäre Qualitätscheck enthält innerhalb des Fragetextes eine beiläufige Anweisung. Die Teilnehmer sollen etwa eine bestimmte Antwortoption auswählen. In unserer Studie lautete eine Frage: „Zum Schluss geht es kurz um die Bedeutung des Fußballs für die deutsche Gesellschaft. Welches Wort passt am besten? Thema dieser Studie ist aber auch zu verstehen, wie Studienteilnehmer bei der Beantwortung von Fragen vorgehen und wie sehr sie bereit sind, Texte vollständig zu lesen. Deshalb bitten wir Sie, in jedem Fall Keines der genannten Wörter als Antwort auszuwählen.“

Nur Studienteilnehmer, die den Text der Frage bis zu Ende gelesen hatten, sahen die Anweisung und konnten dementsprechend korrekt antworten. In Deutschland haben, je nach Art der Fangfrage, 51 bis 85 Prozent diese Aufgabe nicht bewältigt und würden demnach als unaufrichtige Teilnehmer gelten.

Die Trefferquote liegt hier zwar sehr hoch (bei mehr als 70 Prozent), da durch Beschuldigung eines Großteils des Samples als unaufrichtig oder unaufmerksam mehr tatsächlich schlechte Studienteilnehmer erkannt werden als bei anderen Qualitätskriterien mit deutlich geringeren Inzidenzen. Dennoch ist die Genauigkeit mit 15 bis 20 Prozent relativ gering; viele eigentlich gute Studienteilnehmer werden fälschlicherweise verdächtigt.
Wie kann man Schwindler entdecken?
Wie kann man Schwindler entdecken? (Bild: Factworks/p&a)
Bei den anderen Qualitätskriterien sieht das durchaus anders aus: Speeding, invalide offene Antworten oder Flatlining weisen verhältnismäßig kleine Inzidenzen auf – das sind häufig weniger als zehn Prozent – und zeigen dementsprechend eine geringere Trefferquote zwischen 7 und 20 Prozent.

Ihre Genauigkeit ist jedoch deutlich höher (zwischen 39 und 55 Prozent), teils doppelt so hoch wie bei den Fangfragen.

Hieraus folgt sogleich eine direkte Handlungsempfehlung für die Marktforschungspraxis: Fangfragen sind als Qualitätscheck nicht geeignet. Vielmehr entsprechen sie dem Rasenmäher-Prinzip: Ein Großteil des Samples wird versenkt, neben tatsächlichen unaufrichtigen Studienteilnehmern werden dabei aber auch ehrliche Studienteilnehmer erwischt.

Damit fallen sehr viele eigentlich konsistent antwortende Befragte der Datenbereinigung zum Opfer. Fangfragen reduzieren somit unnötigerweise das Sample.

Das beschriebene Muster ist in allen sechs Ländern sichtbar: Im Vergleich zu den anderen Kriterien zeigen Fangfragen eine sehr hohe Inzidenz und dadurch eine hohe Trefferquote, bei gleichzeitig deutlich geringerer Genauigkeit.

Sinnvoll ist eine Kombination einfacher Qualitätskriterien

Wie bereits erwähnt kommt es vor, dass gute und ehrlich antwortende Studienteilnehmer manchmal einen Qualitätscheck nicht bestehen können, weil sie kurzfristig und nur vorübergehend unaufmerksam sind.

In der Praxis sollten deshalb immer mehrere Kriterien über ein Punkteverfahren kombiniert werden, um zu bestimmen, wer die Datenbereinigung besteht. Nur wer eine bestimmte Punktzahl überschreitet, also mehrere Kriterien nicht besteht, wird als unaufrichtig klassifiziert und aus dem Datensatz entfernt. Keinen Vorteil bringt es, möglichst viele Kriterien zu kombinieren. Es erweist sich als effektiver, sich auf einige wenige wirkungsvolle Indikatoren zu beschränken. Wir haben die acht untersuchten Check-Typen teilweise in unterschiedlichen Ausführungen eingebaut. So wählten wir drei verschiedene Fangfragen und zwei Konsistenz-Checks, sodass insgesamt 15 Qualitätschecks zur Verfügung standen. Kombinierten wir alle 15 Indikatoren inklusive der Fangfragen und setzten die Grenze des Bestehens oder Nicht-Bestehens bei sechs nicht bestandenen Checks, ergaben sich für Deutschland 16 Prozent unaufrichtige Studienteilnehmer. Für eine Panel-Studie wäre das bereits ein relativ hoher Bereinigungsanteil, verbunden mit hohen Kosten und Zeitaufwand. Die Trefferquote liegt in diesem Fall bei 41 Prozent und die Genauigkeit bei 35 Prozent.

Wenige Qualitätskriterien erhöhen die Genauigkeit

Kombinierten wir dagegen lediglich fünf besonders genaue Kriterien – Speeding, Flatlining, Inkonsistenz, unwahrscheinliche Ereignisse, ungültige offene Antworten – und setzten die Grenze bei zwei nicht bestandenen Checks, liegt die Inzidenz von unaufrichtigen Studienteilnehmern in Deutschland mit acht Prozent in einer realistischen Größenordnung. Die Trefferquote ist mit 30 Prozent zwar etwas kleiner, die Genauigkeit mit 51 Prozent jedoch deutlich höher. Auch in den anderen fünf untersuchten Ländern zeigt sich, dass die Verwendung einiger weniger Qualitätskriterien zu einer höheren Genauigkeit bei der Datenbereinigung führt als durch Einbeziehung von Fangfragen. Die Häufigkeit an unaufrichtig Antwortenden liegt bei dieser Variante in einem für die Praxis üblichen Bereich von fünf bis zehn Prozent. Zusammenfassend lassen sich diese Einsichten gewinnen:


Kein Qualitätscheck ist perfekt. Obwohl gezeigt werden kann, dass Panelteilnehmer von qualitativ hochwertigen Panels ehrlich und sorgfältig antworten, gibt es immer einen kleinen Teil an unaufrichtigen Studienteilnehmern, die richtig und effektiv identifiziert werden müssen.
Jeder Studienteilnehmer ist in der Regel mit Kosten verbunden und ein Sample steht nicht in unbegrenzter Größe zur Verfügung. Der Anteil an aussortierten Teilnehmern sollte daher möglichst klein bleiben und es sollten so wenige ehrliche Studienteilnehmer wie möglich dabei sein. Hieraus folgt, dass bei der Datenbereinigung der Genauigkeit höchste Priorität zugesprochen werden sollte.
Trefferquote und Genauigkeit von Qualitätschecks
Trefferquote und Genauigkeit von Qualitätschecks (Bild: Factworks/p&a)
Auf Fangfragen sollte bei der Nutzung von Qualitätschecks ganz verzichtet werden, da sie ungenau sind und hierdurch zu viele Teilnehmer fälschlicherweise als schlecht klassifiziert werden. Der Verzicht auf Fangfragen führt außerdem zu einer Verkürzung der Umfragelänge. Dem Studienteilnehmer müssen keine für das Forschungsanliegen unnötigen Fragen gestellt werden, die im schlimmsten Fall zu Verärgerung oder sogar zum frühzeitigen Abbruch der Studie führen.

Im Rahmen unserer Studie wurde die höchste Genauigkeit durch eine Kombination einiger klassischer Qualitätskriterien – Speeding, Flatlining, ungültige offene Antworten, klare Inkonsistenzen und die unwahrscheinlichen Ereignisse – erreicht.

Erschienen in planung&analyse 3/2017
Online-Forschung & Social Media / Pharma & Healthcare
Online-Forschung & Social Media / Pharma & Healthcare
Bild: p&a
Jetzt suchen >>
stats