Bill Gates sagte einmal: Context is King. Das gilt auch für die Textanalyse. Die Erfassung einer Stimmung, die bei dem Schreibenden gerade vorherrscht und somit die Bedeutung des Textes beeinflusst, ist alles andere als trivial. Pascal de Buren, Mitgründer des Schweizer Startups Caplena und p&a Newcomer in der Marktforschung 2019, erläutert, wie eine solche Sentiment-Analyse funktioniert.
Laut einer Studie von Dynata und Bain & Company verwenden 59 Prozent der Firmen bereits irgendeine Form der Sentiment-Analyse, um die Customer Experience ihres Unternehmens zu verbessern. Aber was ist das eigentlich – Sentiment-Analyse? Umfassend definiert, ist die Sentiment-Analyse eine maschinelle Auswertung von Text, um affektive Zustände und subjektive Information zu studieren und quantifizierbar zu machen. Im Klartext: Man versucht nicht nur die Worte automatisiert zu erkennen, sondern auch die Stimmung, das Gefühl des Schreibers.
Meist versteht man unter Sentiment nur die „Polarität“ der Texte, das heißt die Klassifizierung, ob die Worte positiv, negativ oder neutral sind. Eine detailliertere Einteilung in Emotionen wie Hass, Zorn, Traurigkeit, Freude wird oft nicht vorgenommen, da solche Nuancen ohne Bild und Audio meist nicht klar detektiert werden können. Emotionen in kurzen Texten eindeutig zuzuweisen, ist schwierig bis unmöglich – selbst für Menschen. Genau genommen braucht es zusätzlich zur Polarität noch eine Intensität, auch Magnitude genannt. Diese beschreibt, wie emotional der Text ist. In der Praxis wird die Magnitude jedoch oft ignoriert.
Der Autor
Pascal de Buren ist Mitgründer und Mitentwickler der Textanalyse Plattform Caplena. Aus der Idee, neuste Textanalyse für alle zugänglich zu machen, hat er 2017 zusammen mit seinem Kollegen Maurice Gonzenbach dieses Startup mit mittlerweile mehr als zehn Mitarbeitern gegründet. Neben seinen intensiven Arbeiten an der Kern-Technologie ist er als Redner auf Konferenzen in Europa und Amerika anzutreffen. Vor Caplena entwickelte er moderne und umfassende KI-basierte Lösungen für weltweite Software-Konzerne.
Preisträger planung&analyse Newcomer in der Marktforschung 2019
„Der Akku hält lange, aber der Bildschirm ist nicht besonders gut.“ Aussagen mit gemischtem Sentiment wie diese kommen im Marktforschungsumfeld sehr häufig vor. Im Normalfall beschränkt sich die Sentiment-Analyse darauf, die Polarität über den ganzen Text hinweg zu bestimmen. Die Information, dass die gesamte vorliegende Aussage eine neutrale Polarität hat, ist zwar nicht völlig nutzlos, verschenkt aber doch viel der möglichen Aussagekraft.
Einmal reinzoomen bitte: positiv, negativ oder neutral
Im Gegensatz dazu bietet das Sentiment auf Aspekt-Ebene den nötigen Detaillierungsgrad, um Aussagen dazu treffen zu können, welches Sentiment gegenüber welchem Aspekt vorherrscht. Eigentlich ist das genau das, was bei der Codierung offener Nennungen in der Marktforschung und Wissenschaft oft gemacht wird, auch wenn die Terminologie anders ist. Das Sentiment, in diesem Beispiel negativ, gegenüber dem Aspekt, hier Bildschirm, findet sich als Kombination „Bildschirm - negativ“ im Codebuch wieder. Die meisten Anwendungen, wie etwa die Analyse von Kundenstimmen, bedürfen einer Sentiment-Analyse auf Aspekt-Ebene. Für andere Anwendungen, beispielsweise Social Listening, kann das Dokument-Ebenen-Sentiment ausreichen, da oft nur eine Marke pro Tweet oder anderweitigem Social Post vorkommt.
Ein Sentiment zu 100 Prozent zuverlässig und vollautomatisch zu bestimmen, ist immer noch der Heilige Gral der Textanalyse. Doch über die Jahre sind wir immer näher an dieses Ziel herangekommen. Einer der ersten Ansätze – zum Teil heute noch in Gebrauch – war es, mit Lexika zu arbeiten, wie
zum Beispiel mit dem „Sentiment-Wortschatz“ der Uni Leipzig.
Schlecht oder nicht schlecht?
Dabei wird mittels verschiedener Methoden jedem relevanten Wort ein Wert zwischen -1 und +1 zugeordnet, basierend darauf, wie negativ/positiv Menschen Sätze mit diesen Wörtern empfinden. Zum Beispiel erhält das Wort Absturz einen Wert von -0,47, wunderbar kommt hingegen auf +0,72. Um das Sentiment eines Satzes oder eines Dokuments zu bestimmen, wird der Wert für jedes vorkommende Wort aufaddiert. Der Gesamtwert gibt je nach Vorzeichen Auskunft, welches Sentiment vorherrscht.
Für sehr einfache Aussagen funktioniert das gut. Es scheitert aber schon an der Aussage „nicht schlecht“, da das Zusammenspiel zwischen Wörtern nicht berücksichtigt wird. Im Verlauf der 2000er Jahre wurden verschiedene Strategien entwickelt, um diese Problematik zu beheben, jedoch scheiterten im Grunde alle daran, dass keine dieser Methoden den Kontext richtig berücksichtigen konnte. Und bereits Bill Gates sagte: Context is King. Schon bei simplen Beispielen wie „das Brot ist trocken“ und „heute bleibt es trocken“ wird klar, dass dasselbe Wort in zwei verschiedenen Sätzen eine sehr unterschiedliche Bedeutung haben kann.
Schöner Gruß aus der Sesamstraße
Spezielle Formen der künstlichen Intelligenz, Deep Learning und insbesondere sogenannte Transformer haben dies erst in der letzten Dekade fundamental geändert. Ein bedeutender Schritt dabei war BERT, ein Charakter der Sesamstraße, aber auch das Akronym für Bidirectional Encoder Representations from Transformers. Dieser Code konnte zum ersten Mal den Kontext richtig gut erkennen. Der KI wurden sehr viele einfache Aufgaben zu Millionen von Textdokumenten aus dem Internet gestellt. Eine dieser Aufgaben bestand darin, aus einem Text zufällig gelöschte Wörter zu rekonstruieren. Aus der Schule kennen wir dies als Lückentext. Ähnlich wie wir Menschen, kann die KI mit der Zeit immer besser aus dem Kontext erraten, welches Wort in der Lücke fehlt. So lernt die Maschine Kontext. Für die Sentiment-Analyse wird die KI dann noch mit spezifischen Text-Beispielen gefüttert, die händisch einer der drei Polaritäten zugeordnet wurden. Verwendet werden dafür meist öffentlich verfügbare Daten wie Tweets und Amazon Reviews. Durch dieses Feinjustieren von BERT auf Sentiment wurde erstmals im Jahre 2018 eine menschenähnliche Genauigkeit erzielt. Da diese Transformer gut mit Kontext umgehen können, ist es nun auch möglich, das Sentiment auf Ebene von beliebigen Aspekten zuverlässig zu analysieren.
Seither wurden darauf aufbauend verschiedenste Verbesserungen vorgenommen wie RoBERTa, ALBERT, BigBird und viele weitere, deren Eigenheiten zu erklären, hier zu weit gehen würde. Eines ist allerdings ein offensichtlicher Trend: KIs werden stetig komplexer und auf immer mehr Daten trainiert, sodass es für eine mittelgroße bis große Firma zunehmend schwierig und teuer wird, eine eigene KI von Grund auf neu aufzubauen.
In der Praxis verwenden die meisten Firmen entweder kommerzielle Anbieter oder Open-Source-Bibliotheken. Die Qualität der Analyse und der Detaillierungsgrad unterscheiden sich dabei von Tool zu Tool.
So bietet beispielsweise die eher generalistische Google Cloud Natural Language API sowohl Sentiment auf Dokument- als auch auf Aspekt-Ebene inklusive Magnitude, allerdings werden die möglichen Aspekte von Google vordefiniert.
Eine automatische Sentiment-Analyse auf nutzerdefinierten Aspekten schaffen nur sehr wenige Anbieter, Caplena ist einer davon. Zusätzlich bieten manche Lösungen eine Feinjustierung der KI an, mit der die Genauigkeit in der spezifischen Branche und Fragestellung deutlich verbessert werden kann. Dies erfolgt je nach Lösung entweder durch eine händische Überprüfung einiger Sentiment-Zuweisungen oder durch Einpflegen zusätzlicher Regeln und Schlüsselwörter.
Sarkasmus bleibt eine Herausforderung
Aber bis heute gilt: Selbst die besten Systeme schaffen es nicht, Sarkasmus und Ironie zuverlässig zu interpretieren. Eine der Hauptschwierigkeiten ist hierbei, dass Sarkasmus sehr kontextabhängig ist. So kann der Satz „Ich musste nur 30 Minuten warten, effiziente Erledigung!“ negativ oder positiv sein, abhängig davon, um was für eine Dienstleistung es sich handelt. Nur Systeme, die speziell für eine Domäne adaptiert wurden, können mit solchen Feinheiten umgehen, wenn sie dafür auch mehr Hilfe vom Menschen benötigen.
Ein anderes, immer noch bestehendes Problem ist die Voreingenommenheit vieler Systeme. So fanden Forscher des National Research Council Canada im Jahre 2018 heraus, dass 75 Prozent der Systeme in der Sentiment-Analyse konsistent ein Geschlecht anders gewertet haben als ein anderes, ohne dass der effektive Inhalt der Aussage geändert wurde. Zu dieser Voreingenommenheit wird aber glücklicherweise viel geforscht.
Auch wenn Systeme zur Sentiment-Analyse noch nicht 100 Prozent akkurat sind, so kommen sie der menschlichen Qualität sehr nahe, sind um ein Vielfaches schneller, werden nicht müde und verstehen mehr Sprachen, als ein Mensch jemals lernen kann. Die Textanalysen werden somit immer genauer.
Erschienen in