Online Special Felddienstleister Sprechen statt Tippen?

Mittwoch, 17. Januar 2018
Die Entscheidung ist noch nicht gefallen - Suche per Sprache oder Tastatur
Die Entscheidung ist noch nicht gefallen - Suche per Sprache oder Tastatur
© Pixabay.com

Sprachsteuerung liegt im Trend, Amazons Echo oder Apples HomePod machen das deutlich. Die Technologie soll Nutzern vieles einfacher machen. Kann davon auch die Marktforschung profitieren? Nadja Böhme und Theo Gerstenmaier von FactWorks sowie Oliver Tjarks von Research Now SSI sind der Frage nachgegangen.
Siri, Alexa oder Cortana. Fast jedes Smartphone ist mit einem intelligenten digitalen Sprachassistenten ausgestattet, der Nutzern aufs Wort hört. Im Jahr 2020, so eine Prognose, wird jede zweite Suchanfrage auf Spracheingaben zurückzuführen sein. Microsoft und Google verkünden Durchbrüche bei der Genauigkeit der Spracherkennung mit einer Fehlerquote von weniger als fünf Prozent, Tendenz weiter sinkend. Auch in den eigenen vier Wänden sind elektronische Geräte mit integrierten Sprachassistenten verstärkt im Einsatz.
Für die Marktforschung stellt sich die Frage, ob Umfragen mit Audio-Elementen von dem Trend Sprechen statt Tippen profitieren können. Steigern Sprachaufnahmen anstelle von Texteingaben die Motivation, an einer Umfrage teilzunehmen? Geben die Teilnehmer mehr und ausführlichere Antworten auf offene Fragen? Mit einer Zweiländerstudie sind die international tätigen Marktforschungsunternehmen FactWorks und Research Now diesen Fragen nachgegangen. Für die nach Alter, Geschlecht und Bildungsstand repräsentative Untersuchung in Deutschland und im Vereinigten Königreich wurden von August bis September 2017 insgesamt 2.279 Personen befragt. Quelle war das Panel von Research Now. Die Studie umfasste 25 Fragen zur Nutzung und Einschätzung von Technologiemarken sowie zu Sprachassistenten. Sie beinhaltete auch drei offene Fragen zu Markenassoziationen und zum Zukunftspotenzial und den Schattenseiten von Sprachassistenten. Das eigentliche Ziel der Studie war jedoch die Auswertung der offenen Fragen.

Nadja Böhme

Nadja Böhme
(© Factworks)
ist Director und Head of Marketing beim Marktforschungsinstitut FactWorks und leitet internationale Kundenprojekte aus den Bereichen Technologie und Finanzdienstleistungen.
Dafür wurden die Befragten drei Listen zufällig zugeordnet. Die erste Gruppe sollte ihre Antworten in Textfelder eintragen. Die Personen der zweiten Liste sollten die offenen Fragen mithilfe von Audioaufnahmen beantworten. Die Teilnehmer aus der dritten Liste hatten die Wahl zwischen schriftlicher und mündlicher Beantwortung.

Theo Gerstenmaier

Theo Gerstenmaier
(© Factworks)
ist studierter Kommunikations- und Medienwissenschaftler und arbeitet seit anderthalb Jahren als Marketing Manager bei FactWorks.
Auf den ersten Blick bestätigen die Ergebnisse der Studie den Trend zu Sprachassistenten: Bereits die Hälfte der Teilnehmer aus Deutschland und dem Vereinigten Königreich nutzt nach eigenen Angaben diese Technologie. Die Teilnehmer, die über Mobilgeräte an der Umfrage teilnahmen, bekannten sich mit 57 Prozent noch stärker zur Nutzung der Technologie. Amazons Sprachassistent Alexa sowie Apples Siri waren unter allen Befragten die bekanntesten Vertreter mit 71 Prozent beziehungsweise 67 Prozent Markenbekanntheit; Samsungs vergleichbare Sprachtechnologie Bixby kannten nur 7 Prozent der Befragten.

Oliver Tjarks

Oliver Tjarks
(© Research Now)
ist seit 2008 bei Research Now SSI. Er hat das Office in München gegründet und aufgebaut. Mittlerweile ist er als Vice President Client Development verantwortlich für das Core Business & die Betreuung von Kunden in DACH & Osteuropa.
Vorrangig werden die Sprachassistenten für die schnelle Beschaffung von einfachen Informationen genutzt. So gab jeder zweite Befragte an, seinem Sprachassistenten schon witzige Fragen gestellt zu haben. Fast jeder dritte deutsche Befragte schätzt Sprachassistenten als sehr nützlich oder äußerst nützlich ein. Das sind deutlich mehr als unter den Teilnehmern im Vereinigten Königreich – dort teilt diese Einschätzung jeder fünfte Befragte. Privatsphäre-Bedenken gegenüber Sprachassistenten werden von 62 Prozent der deutschen Nicht-Nutzer angeführt. Das sind deutlich mehr als im Vereinigten Königreich mit 39 Prozent.

Audio-Nennungen treffen noch auf wenig Gegenliebe

Ein direkter Vergleich von Sprach- und Texteingabe zeigt klar: Audio führt noch zu höheren Abbruchraten, nämlich zu rund dreimal so vielen im Vergleich zu Text. Das gilt für beide Länder. Hauptgrund ist eine mangelnde Bereitschaft der Befragten. Etwa die Hälfte aller Personen der Gruppe 2, die die Umfrage mittels Sprachaufnahme beantworten sollten, verließ die Umfrage gleich zu Beginn. Bedenken hinsichtlich Privatsphäre und Datensicherheit sowie Mehraufwand und technische Probleme mit dem Mikrofon waren die meistgenannten Gründe für Abbrüche. Die Gruppe, die die Wahl zwischen Audio und Text hatte, wählte selten Audio. In beiden Ländern entschieden sich mehr als 95 Prozent der Befragten aus Liste 3 für die gewohnte Texteingabe – und das unabhängig davon, ob es sich um ein kurzes Statement oder eine längere Meinungsäußerung handelte. Hier war die Gruppe der Personen, die über ihr Smartphone an der Umfrage teilnahmen, eher bereit, Audio zu wählen. Insgesamt konnten sich nur 7 Prozent der Teilnehmer der Audio-Liste qualifizieren. Bei der Liste eins mit reiner Texteingabe lag die Quote bei rund 80 bis 85 Prozent. Bei der Liste drei mit Wahlmöglichkeit zwischen Audio und Text betrug die Qualifizierungsrate rund 66 Prozent.
Potenzial von Sprachassistenten (Kodierte Ergebnisse der längeren offenen Fragen, Top-Nennungen, Angaben in Prozent)
Potenzial von Sprachassistenten (Kodierte Ergebnisse der längeren offenen Fragen, Top-Nennungen, Angaben in Prozent) (© Factworks/p&a)
Zudem fällt auf: Der Zeitfaktor spielt noch eine besondere Rolle. Die Umfrage mit Audio-Nennungen dauerte im Schnitt fast doppelt so lang. Die Antworten sind ausführlicher, bestehen aus knapp dreimal so vielen Wörtern. Zusätzlich schlagen die Upload-Zeiten der Aufnahmen zu Buche. Rund 7 von 10 Teilnehmern gaben an, dass ihnen die Umfrage Spaß gemacht habe. Bei der Datenanalyse ist ein Zusatzaufwand für Audio-Nennungen zu berücksichtigen. In der Studie kamen zunächst automatisierte Lösungen bei der Transkription der Nennungen zum Einsatz. Es zeigte sich jedoch, dass ein erhebliches manuelles Eingreifen und Nachbessern erforderlich war. Dialekte, eine undeutliche  Aussprache und Hintergrundgeräusche wie laufende Musik machten es der computer-basierten Software schwer, das Gesagte in brauchbaren, zuverlässig transkribierten Text umzuwandeln.

Tiefere Insights durch Audio

Inhaltlich steht Audio Text in nichts nach. Die gleichen Themen lassen sich auch mit Audio-Nennungen identifizieren. Interessanterweise hielten sich einige der Befragten bei den Audio-Nennungen nicht an die vorgegebene Anzahl von drei Wörtern bei der kurzen offenen Frage. Stattdessen wurde in ganzen Sätzen, teilweise mit ausführlicher Erklärung und zusätzlichem Kontext geantwortet. Gerade dieser Kontext ermöglicht es Text-Analytics-Tools, Netze aus im Zusammenhang auftretenden Begriffen und Themen zu produzieren. Auch bei den längeren offenen Fragen zu Potenzialen und Schattenseiten von Sprachassistenten zeigte die Analyse bei Audio-Nennungen mehr Themen pro Teilnehmer und mehr Kontext. So wurde ersichtlich, dass auch Befragte, die eine Nutzung von Sprachtechnologie nicht in Betracht ziehen, durchaus nützliche Anwendungsbereiche sehen, beispielsweise für ältere oder visuell beeinträchtigte Menschen. Nutzer von Sprachassistenten oder jene, die dies in Betracht ziehen, sahen in der Audio-Gruppe häufiger mögliche Anwendungen im eigenen smarten Heim, etwa für die Steuerung des Lichts oder auch im Auto.
Schattenseiten von Sprachassistenten (Kodierte Ergebnisse der längeren offenen Fragen, Top-Nennungen, Angaben in Prozent)
Schattenseiten von Sprachassistenten (Kodierte Ergebnisse der längeren offenen Fragen, Top-Nennungen, Angaben in Prozent) (© Factworks/p&a)
Eine anschließende manuelle Kodierung der längeren offenen Fragen zu Potenzialen und Schattenseiten von Sprachassistenten bestätigte, dass bei Audio-Antworten mehr Themen pro Befragten aufkamen. Interessant: Die Weiß-nicht-Option war in beiden Ländern bei der Gruppe, die nur mit Audio antworten sollten, signifikant geringer im Vergleich zur Text-Liste. Ähnlich sieht es bei der Frage nach den Schattenseiten der Technologie aus.

Sprache statt Text hat Zukunftspotenzial

Die Studie zeigt Zukunftspotenzial für die Eingabe von Sprache statt Text. In Deutschland wollen beispielsweise 18 Prozent der derzeitigen Nicht-Nutzer von Sprachassistenten die Technologie in den kommenden sechs Monaten ausprobieren. Ein Drittel der derzeitigen Nutzer würde Sprachassistenten sogar vermissen, wenn es sie nicht mehr gäbe. Inhaltlich bringen Audio-Nennungen und Text-Nennungen ähnliche Punkte, Hauptthemen lassen sich mit beiden Varianten identifizieren. Die Informationen der Audio-Nennungen sind aber differenzierter und ermöglichen dadurch tiefere Insights. Ein klares Mehr bieten Audio-Aufnahmen in Hinblick auf die stärkere Reflexion der Teilnehmer. Aufgrund der natürlichen Sprache, Satzbildung und Einbindung in Erklärungen entsteht zusätzlicher Kontext. Dieses Mehr an Wörtern kann aber auch ein Rauschen mit sich bringen, wenn viele Füllwörter oder Stoppwörter hinzukommen, was bei automatisierten Klassifizierungslösungen mit Text-Analytics gut angelegte Listen oder Bibliotheken voraussetzt.

Audioaufnahmen führen aber derzeit noch zu hohen Abbruchraten unter den Befragten. Zusätzlich erschweren Sicherheitsbedenken die Datenerhebung. Es empfiehlt sich ein Vorabtest mit einem einsatzbereiten, nicht auf stumm geschalteten Mikrofon, um nicht noch weitere Befragte durch Probleme mit der Hardware zu verlieren.

Audioaufnahmen in Umfragen sind für alle Beteiligten noch aufwendig: Im Schnitt werden mehr Wörter gesprochen als geschrieben, die Beantwortungszeiten sind länger als bei Text. Dabei sollte es den Befragten so einfach wie möglich gemacht werden, um zusätzliche Hemmschwellen abzubauen. Zukünftig können intuitivere Aufnahmetools hier Abhilfe schaffen. Auf Analyseseite bedeutet die Transkription einen Mehraufwand, auch wenn mit fortschreitender technologischer Entwicklung das manuelle Nachbessern vermutlich reduziert werden kann.

Für die quantitative Marktforschung steckt Audio noch in den Kinderschuhen und stellt eine Kosten-Nutzen-Abwägung dar. Mit zunehmender Verbreitung von Sprachtechnologie in der Bevölkerung darf man zukünftig gespannt bleiben, wie sich Akzeptanz und Nutzung in der Marktforschung entwickelt.

Erschienen in planung&analyse 6/2017
Jetzt suchen >>
stats