Text Analytics

Auf Knopfdruck: Offene Fragen kodiert?

   Artikel anhören
© FactWorks
Kann Text Analytics in der Marktforschung von Social Media lernen, wollte Selina Pietsch von Factworks wissen. Sie hat in einer Studie Modelle miteinander verglichen und auch einer manuellen Kodierung gegenübergestellt, um festzustellen, welches Verfahren die besten Ergebnisse für die Analyse von offenen Antworten liefert.

In der zunehmend vernetzten Welt haben Konzerne mit direktem Draht zu ihren Kunden einen klaren Wettbewerbsvorteil. Wer das Feedback seiner Kunden ernst nimmt, bekommt Zugang zu Wissen, das direkt in den Optimierungsprozess von Produkten oder Dienstleistungen einfließen kann. Offene Fragen an den Kunden sind dabei ein beliebtes Format in der Marktforschung, das es Unternehmen erlaubt, unverfälschtes und ausführliches Feedback zu erhalten.


Die Kodierung von Offenen als Zeitfresser

Marktforscher verzichten für gewöhnlich ungern auf offene Antworten in ihren Umfragen, obwohl die Analyse ein meist langwieriges Unterfangen ist. Menschliche Sprache ist mitunter unstrukturiert. Die Kodierung von offenen Antworten kostet Marktforschungsinstitute daher viel Zeit und Ressourcen und ist anfällig für Verzerrungen und Ungenauigkeiten bei der Vergabe von Codes, besonders wenn mehrere Personen dieselbe Frage kodieren. Manuelle Kodierung wird häufig als notwendiges Übel akzeptiert, um durch offene Antworten tiefere Einblicke erhalten zu können.

Text Analytics gibt Grund zur Hoffnung

Mit Schlagwörtern wie Text Analytics und Machine Learning, die auch in der Marktforschung immer häufiger fallen, wächst die Hoffnung, dass die langwierige Kodierungsarbeit durch automatisierte Prozesse ersetzt oder zumindest erleichtert werden kann. Text Analytics befasst sich mit der Verarbeitung und Analyse unstrukturierter Textdaten. Mittels verschiedener Verfahren können Strukturen und Kerninformationen aus Texten extrahiert und aufbereitet werden. Insbesondere Topic Modeling hat sich als ein sehr nützliches Verfahren erwiesen, um zunächst unbekannte Themen in Textdokumenten zu identifizieren.
Selina Pietsch
Selina Pietsch
© FactWorks
ist Analyst bei Factworks in Berlin und spezialisiert auf Text Analytics. Sie wurde jüngst mit dem Esomar YES Award für innovative Ideen in diesem Bereich ausgezeichnet.
In der Marktforschung noch in den Kinderschuhen

In vielen Disziplinen werden diverse Text Analytics-Ansätze bereits erfolgreich eingesetzt. Ein Beispiel hierfür ist Customer Service, wo Kunden schnellere, automatisierte Antworten durch den Einsatz von Text Analytics erhalten. Auch im Online-Marketing werden Algorithmen aus dem Bereich Text Analytics genutzt, um beispielsweise Werbung zu optimieren und erfolgversprechende Werbebotschaften zu identifizieren. Doch obwohl Text Analytics enormes Potential für die Analysen von großen Textdaten bietet, befindet es sich in der Marktforschung noch in den Kinderschuhen. Text Analytics mittels Topic Modeling bezeichnet dabei nicht den einen Algorithmus, der für jede Art von Text geeignet ist. Vielmehr gibt es eine Vielzahl unterschiedlicher Modelle, die verschiedene Stärken und Schwächen aufweisen und somit für den Einsatz in unterschiedlichen Bereichen ausgelegt sind.

Beliebtes Modell ungeeignet für kurze offene Antworten

Das gängigste Verfahren im Bereich Topic Modeling ist sicherlich Latent Dirichlet Allocation (LDA). Für die Analyse von offenen Antworten in der Marktforschung bietet LDA allerdings offensichtliche Nachteile, da diese Texte oft kurz sind, häufig aus nur ein bis drei Wörtern bestehen. LDA kann sein volles Potential hingegen erst bei langen Texten (wie z.B. Buchkapiteln) entfalten. Dies liegt in der Funktionsweise der Methode begründet: Es analysiert, wie häufig Wörter im selben Zusammenhang auftreten. Werden zwei Wörter häufig miteinander genannt – beispielsweise in derselben Antwort – ist es wahrscheinlich, dass sie demselben Thema angehören. Sind die Textantworten aber kurz, wie in Umfragedaten üblich, können Zusammenhänge zwischen Wörtern weniger gut identifiziert werden und die Analyse liefert kaum zuverlässige Informationen.

Der Blick über den Tellerrand lohnt

Ist Topic Modeling also grundsätzlich für den Einsatz in der Marktforschung ungeeignet? Hier lohnt ein Blick über den Tellerrand. Denn auch in anderen Bereichen wird mit sehr kurzen Texten gearbeitet, wie z.B. in der Social-Media-Forschung. Hier werden Tweets und Co. mit speziellen Topic Modeling-Ansätzen (namens Biterm Topic Model, Latent Feature Latent Dirichlet Allocation und Word Network Topic Model) bereits erfolgreich analysiert und ausgewertet. Vergleicht man Tweets mit offenen Antworten aus Umfragen, fällt auf, dass sie sich sowohl hinsichtlich Textlänge als auch Sprachstil sehr ähnlich sind.  So stellt sich die Frage: Sind diese Modelle besser geeignet für eine Anwendung in der Marktforschung?

Eine Studie, die den Status-Quo hinterfragt

Erstmalig wurde das für Marktforschungszwecke in einer Studie untersucht. Dabei wurden LDA und die drei Social-Media-Modelle miteinander verglichen und auch einer manuellen Kodierung gegenübergestellt, um festzustellen, welches Verfahren die besten Ergebnisse für die Analyse von offenen Antworten liefert.
Für die Untersuchung wurden alle Modelle mithilfe echter Umfrageantworten getestet. Die zwei Fragestellungen lauteten hierbei: Wie verständlich sind die Themen, die die Modelle automatisch aus den Antworten extrahierten? Und: Wie unterscheidet sich das Ranking der Themen, also die Reihenfolge der Themen nach Häufigkeit ihrer Nennung unter allen Befragten, zwischen manueller Kodierung und automatischer Analyse?

Bessere Ergebnisse mit Social-Media-Modellen

Die Ergebnisse konnten sich über alle vier Modelle hinweg durchaus sehen lassen. Die von den automatisierten Verfahren entdeckten Themen waren verständlich und gaben zudem einen guten Einblick in den allgemeinen Tenor der Antworten. Auch das Ranking der Themen war beim Vergleich von manueller und automatischer Kodierung gerade bei den Top-Themen sehr nah beieinander. Bei den wenig genannten Themen zeigten sich wiederum leichte Unterschiede.

Insgesamt waren die drei speziellen Modelle aus dem Bereich Social Media aber dem gängigen Modell LDA klar überlegen. Das zeigte sich sowohl beim Ranking als auch bei der Verständlichkeit der identifizierten Themen. Für kurze offene Antworten wie in Umfragedaten üblich, bieten die speziellen Modelle also einen Mehrwert für den Einsatz in der Marktforschung. 
© FactWorks
Mensch und Maschine als zukünftiger Erfolgsfaktor

Die Ergebnisse der Studie zeigen auch, dass Text Analytics und speziell Topic Modeling enormes Potenzial für die Marktforschung und Analyse von offenen Antworten aufweisen. In erster Linie wird erhebliche Zeitersparnis ermöglicht, wenn nicht mehr jede Antwort einzeln kodiert werden muss. Zudem fällt es dem Computer leichter objektiv und konsistent zu bleiben als uns Menschen - automatisierte Analysen können den Human Bias erfolgreich beseitigen. Ihr volles Potential können diese Verfahren jedoch erst im Zusammenspiel zwischen Mensch und Maschine erzielen. Auch wenn Text Analytics einen großen Teil des Prozesses automatisieren kann und dabei einen Zeit- und Qualitätsvorteil mit sich bringt, wird auch zukünftig ein erfahrener Forscher benötigt, der die Themen interpretieren und in einen größeren Kontext einbetten kann.
© FactWorks

Ich habe die Datenschutzbestimmungen zur Kenntnis genommen und akzeptiere diese.
stats