Marktforschungsergebnisse rein aus Generativer KI gewonnen? Wie soll das gehen? Woher soll die KI wissen, was Konsumenten denken? Da drehen wir uns ja im Kreis. Shit in, shit out. Argumente, sich nicht mit dieser Idee auseinanderzusetzen, gibt es viele. Frank Buckler von Success Drivers macht sich hingegen Gedanken über den sinnvollen Einsatz von synthetischer Marktforschung.

In der Medizin gibt es ein Prinzip: „Wer heilt, hat recht“. Angewendet auf andere Bereiche, könnte man auch sagen: „Was nützt, ist in Ordnung!“ Daher sollten wir uns den Einsatz von Generativer KI für die Zwecke der Marktforschung zumindest mal anschauen.

Hört man Fachleute, die über Generative KI schreiben oder sprechen, gibt es meist zwei Lager: Die einen, die euphorisch den Nutzen der neuen Technologie darlegen und diesen in die Zukunft extrapolieren. Das andere Lager ist zwar der Nutzung der Technologie aufgeschlossen (weil der Nutzen in bestimmten Grenzen offensichtlich und nicht mehr bestreitbar ist), doch sie freuen sich regelrecht über jeden Beleg, der zeigt, warum die Technologie nicht so gut ist wie der Mensch und warum dies für immer so bleiben wird.

Die Wahrheit liegt wie immer in der Mitte. Sowohl das kritische als auch das visionäre Mindset wird gebraucht. Doch frei nach Steve Jobs nur die, die „dumm“ genug sind das bislang Unmögliche für möglich zu halten, werden die Welt verändern. Eigentlich ist es logisch: Wenn ich annehme, dass Large Language Modelle (LLM) Marktforschung nicht ersetzen können, werde ich auch nicht herausfinden, wie und unter welchen Umständen sie es vielleicht doch kann.

Es gibt Beispiele, wie es gehen kann

Es mangelt nicht an kritischen Beiträgen

Künstliche oder menschliche Intelligenz?

machte ein wissenschaftliches Paper von Harvard-Forschern Schlagzeilen. Sie verwendete ChatGPT3 und simulierten den Einkaufsprozess von Zahnpasta, um herauszufinden, wie die Preisabsatzfunktion für verschiedene Marken aussehen könnte. Erstaunlicherweise waren die Ergebnisse recht nah an denen der Conjoint-Methode nach einer Befragung.erschien im Journal of Political Science eine weitere erstaunliche Studie, in der mit GPT3 die Ergebnisse von politischen Meinungsumfragen reproduziert wurden. Die Forscherinnen und Forscher schreiben in der Zusammenfassung:„Wir vergleichen die synthetische und die menschliche Stichprobe, um zu zeigen, dass die in GPT3 enthaltenen Informationen weit über eine oberflächliche Ähnlichkeit hinausgehen. Sie sind nuanciert, vielschichtig und spiegeln das komplexe Zusammenspiel zwischen Ideen, Einstellungen und soziokulturellem Kontext wider, das menschliche Einstellungen kennzeichnet. Wir vermuten, dass Sprachmodelle mit ausreichender Genauigkeit der Algorithmen ein neuartiges und leistungsfähiges Instrument darstellen, um das Verständnis von Mensch und Gesellschaft in einer Vielzahl von Disziplinen zu verbessern.“setzte Steffen Schmidt vom Schweizer Institut LINK ein AgentGPT-Systems, dass die Preisabsatzfunktion des angekündigten Mixed-Reality-Headset Apple Vision Pro schätzte. Das System geht mehrstufig vor und recherchiert zuerst Wettbewerbspreise, um dann sich selbst zu prompten. Wir von Success Drivers haben im Juni versucht, diese Preisabsatzfunktion zu validieren, indem wir die Ergebnisse mit einer „echten“ Messung der Preisabsatzfunktion mit dem Implicit Price Intelligence Verfahren (siehe planung&analyse Ausgabe 1/2023) verglichen. Ergebnis: Die Preisabsatzfunktion unterscheidet sich, doch der errechnete Preis ist nicht so weit weg vom Optimum. Einfachere Methoden wie Gabor-Granger-Methode oder die Van-Westendorp-Methode wären schlechter gewesen.hat Kantar eine Studie zum Einsatz synthetischer Marktforschung publiziert und kommt zu einer gemischten Einschätzung. Im Kern versuchen die Forscher die Ergebnisse von Studien, die unter Einsatz einer Likert-Skala zustande gekommen sind, zu reproduzieren. In manchen Fällen gelingt dies sehr gut, in anderen nicht so gut. Die Forscher stellen zum Teil starken demografische Verzerrungen der LLMs fest.Etwas der von Gordon Guthrie der durch Analyse seltener Ereignisse versucht die Reliabilität der LLMs zu untersuchen. Er sieht drei fundamentale Schwächen der LLMs:, so wie wir es kennen. Sie speichern Assoziationen und sind daher immer in Gefahr inkonsistent zu sein.und sind kein repräsentatives Abbild der Realität. Die Verfügbarkeit dieser Informationen unterliegt einer extremen Verzerrung. Damit ist der Output auch durch unbekannte Verzerrungen bestimmt. Als Korrektiv gibt es zwar den Feedback-Mechanismus, mit dem die KI lernt, ständig „besser“ zu werden. Leider ist das Feedback ebenfalls nicht repräsentativ.und erzeugen eine Illusion von Wahrheit. So wie komplexe Barnum-Phrasen klingen sie vernünftig sind aber unter Umständen gehaltlos.Diese Analyse ist gut und richtig. Doch wir werden nur herausfinden, ob und wie wir die Technologie nutzen können, wenn wir es für möglich halten, die Technologie – sinnvoll gezähmt oder weiterentwickelt – zu nutzen.Schauen wir uns zum Vergleich an, wie der Verstand des Menschen gestrickt ist und arbeitet. Dabei fallen einige Parallelen zu den LLMs auf.Wissen ist im Gehirn nicht unmittelbar strukturiert gespeichert. Die Strukturierung ist eine Leistung, die im Nachhinein etwa durch externe oder innere Abbildungen/Visualisierung erfolgt. Genau deshalb können LLMs auch sehr gut die Antworten von Menschen reproduzieren.. Die Medien liefern nach dem Motto „Good News is no News“ vor allem Informationen über negative Ereignisse, obwohl die Realität aus überwiegend positiven Ereignissen besteht. Egal wie viel wir „wissen“ – und das schließt gerade auch Experte mit ein – es ist immer ein verzerrtes Wissen, einfach weil das Sampling an Informationen, die wir aufnehmen, verzerrt ist. Diese Relevanz kennt jeder Marktforscher. Wie kann ich die Wahrheit herausfinden, wenn die Informationen nicht repräsentativ sind?Doch ob das, was sie sagen, deren innere Wahrheit widerspiegelt, ist der Antwort nicht anzusehen – Plausibilität ist KEIN Nachweis für Wahrheit. Es ist noch nicht einmal eine notwendige Bedingung.

Schauen wir uns ein Beispiel an, das nur in englischer Sprache funktioniert. Was antwortet die KI auf diese Fragen? Was würde ein Mensch antworten?

• The professor married the student because she was pregnant. Who was pregnant?

• The student married the professor because she was pregnant. Who was pregnant?



Die KI antwortet so wie Menschen intuitiv antworten: „the student“. Diese Antwort ist weder politisch korrekt noch logisch eindeutig. Aber es ist auf Basis der von uns gelernten Daten die probabilistisch beste Antwort.

Das Wort „Professor“ ist nun mal mit „Männlichkeit“ assoziiert. Wir wollen das als Gesellschaft ändern, doch das steht auf einem anderen Blatt. Fakt ist, dass die menschliche Assoziation nach wie vor auch näher an der Realität ist. Die KI antwortet so wie ein Mensch mit seinen gelernten Assoziationen antworten würde.

Was heißt das für die synthetische Marktforschung?

Ich schließe daraus drei Thesen:

THESE 1 - Die KI zu befragen, ist ähnlich wie einen einzelnen Menschen zu befragen. Sie ist keine Datenbank und hat kein strukturiertes Wissen. Sehen Sie den Output der KI nur als EINE „Meinung“ unter vielen an.

THESE 2 – Wir können eine repräsentative Befragung simulieren, wenn wir die KI bitten (prompten), die Sicht eines bestimmten Menschen einzunehmen und dies für alle Varianten unterschiedlicher Konsumenten durchspielen. Diese Konsumenten können durch ihre Demographie, Erfahrung, Persönlichkeit oder ihre Werte beschrieben werden.



Übrigens: Interessant ist, dass wir die Chance haben, repräsentativere Ergebnisse zu erhalten als in der echten Marktforschung. Warum? Wenn ich 50 Prozent Männer und 50 Prozent Ostdeutsche im Sample haben will, kann es passieren, dass im Extremfall alle Männer aus Ostdeutschland kommen. Will sagen: Eine notwendige „multi-dimensionale Quotierung“ findet in der Marktforschungspraxis aus praktischen und aus Kosten-Gründen, so gut wie nie statt. Doch sie ist notwendig, um Repräsentativität wirklich sicherzustellen. In der synthetischen Marktforschung ist dies einfach, schnell und kostenlos. Natürlich muss ich dafür die tatsächliche Verteilung der Eigenschaften in der Realität kennen, was meist nicht der Fall sein wird.



THESE 3 – Validierung ist notwendig: Für die synthetische Marktforschung gilt dasselbe, was auch für die bisher übliche Art der Marktforschung gelten sollte: Wir können nicht davon ausgehen, dass Marktforschungsergebnisse richtig sind, wenn wir sie nicht mit anderen unabhängigen Informationen validiert haben.

Ein Beispiel gefällig?

Buckler / Success Drivers

Aus einem beliebigen Artikel in der Tagespresse: Auf die Frage nach den größten Wettbewerbsnachteilen für den Standort sagen 77 Prozent: hohe Energiekosten. In einer zweiten Frage wird danach gefragt, wie die Energiekosten für das eigene Unternehmen eingeschätzt werden. Nur 41 Prozent sehen sie als ein Problem. Wie kann das sein?

Klassische Marktforschung bringt immer Ergebnisse. Doch ob diese für bare Münze gehalten werden können, steht auf einem anderen Blatt.

Welche Validierungsmethoden gibt es?

Der Autor Dr. Frank Buckler ist Gründer und Geschäftsführer der Success Drivers GmbH einer Agentur für Marketingforschung mit dem Schwerpunkt der Anwendung von KI bei der Gewinnung von Erkenntnissen für Marketing und Vertrieb. Er forscht seit 30 Jahren im Bereich KI ist Entwickler der KI-Basierte Kausalanalysesoftware Neusrel. Seit dem Erscheinen des Buchs „Neuronale Netzte im Marketing-Management“ in 2001 bei Gabler/Springer ist er vielfacher Buchautor im Bereich KI und Marketing. ist Gründer und Geschäftsführer der Success Drivers GmbH einer Agentur für Marketingforschung mit dem Schwerpunkt der Anwendung von KI bei der Gewinnung von Erkenntnissen für Marketing und Vertrieb. Er forscht seit 30 Jahren im Bereich KI ist Entwickler der KI-Basierte Kausalanalysesoftware Neusrel. Seit dem Erscheinen des Buchs „Neuronale Netzte im Marketing-Management“ in 2001 bei Gabler/Springer ist er vielfacher Buchautor im Bereich KI und Marketing.

Mir fallen diese drei ein:1. Eine verwandte Frage stellen, deren Antwort mit der ersten konsistent sein sollte: So wie im obigen Beispiel, weist ein Widerspruch daraufhin, dass mindestens eine der beiden Antworten nicht so ohne weiteres übernommen werden kann.2. Vergleich mit anderen Datenquellen: Ist es möglich aus anderen Quellen eine Ausgangshypothese zu formulieren?3. Prädiktive Informationen: Fragen Sie LLMs, wie die Produkte einer bestimmten Kategorie am Markt in den wichtigen Kriterien in der Kundenmeinung abschneiden. Dann rechnen Sie eine multiple Regression (im einfachsten Fall) auf den Marktanteil. Kann ein hohes Bestimmtheitsmaß (R2) erreicht werden, so hat das LLM einen guten Job gemacht. Das heißt also: Wenn eine Information dazu beitragen kann, ein Ergebnis vorherzusagen, dann ist sie nicht mehr zufällig, sondern hat wertvolle Informationen in sich und ist (abgesehen von der Skalierung) auch valide.

„Das ist mir zu riskant“

Buckler / Success Drivers Wo synthetische Marktforschung Sinn machen könnte

Quintessenz

In der Tat vermute ich, dass die synthetische Marktforschung keinen Ersatz für den Großteil der aktuellen Marktforschungspraxis darstellt. Warum sollte ein Unternehmen das Risiko eingehen, eine synthetische Marktforschung „anzustellen“, wenn für ein paar hundert oder tausend Euro ein solides, echtes Sample einkaufen kann? Schaut man sich die deutsche Wirtschaft an, so wird die wirtschaftliche Wertschöpfung zu etwa der Hälfte von Firmen erbracht, die weniger als 50 Millionen Euro Umsatz aufweisen. Professionelle Marktforschung findet dort nur wenig statt. Auch in großen Unternehmen wird ein Gutteil der Entscheidungen auf Basis unzureichender Informationen gefällt. Marktforschung wird oft für zu teuer gehalten oder dauert vermeintlich zu lange. Die Basis sind meist interne Experten, wenige qualitative Interviews und Desktop-Research oder eine Self-Service-Befragung mit Survey Monkey oder einem ähnlichen Tool. Auch im Erkenntnisprozess von Großunternehmen gibt es mehrere Phasen. Gerade in der Vorphase kann es sehr viel Sinn machen, synthetische Marktforschung einzusetzen. Denn sie kann die eingesetzten Methoden ergänzen und deren Output verbessern.Wie hat immer mein Doktorvater Klaus-Peter Wiedmann gesagt? „Herr Buckler, das eine tun, das andere nicht lassen“. Wir haben noch immer ein verschobenes Bild was LLMs eigentlich sind. Es sind keine „künstlichen Menschen“ und keine Datenbanken und sie arbeiten weder ganz genau, noch haben sie immer recht. Sie sind nichts anderes als eine Assoziationsmaschine – wie der menschliche Verstand. Sie arbeiten auf der Grundlage nicht-repräsentativer Daten – wie wir Menschen auch – und sie haben gelernt schlau daher zu reden, bleiben einen Beleg meist schuldig. Auch das ist ähnlich bei den Menschen.Mit diesem Bild im Kopf kann es gelingen, LLMs für Aufgaben einzusetzen, die heute zum Teil nur stümperhaft bewältigt werden. Die Marktforschungsbranche hat die Chance, das Thema für sich zu besetzten, und so neue Märkte zu schaffen. Wenn sie es nicht tut, werden es andere tun. Packen wir es an. Oder wie Klaus-Peter immer sagte: „Es gibt nichts Gutes, außer man tut es“

PS: Ich habe in diesem Artikel ausgeklammert, dass das der Mensch und selbst das menschliche Gehirn als Ganzes noch in sehr vielen weiteren Aspekten sich von den LLM unterscheidet. Doch das besprechen wir mal in einer anderen Ausgabe der Kolumne Zukunftstechnologien.