Ein vor allem in der Social Media Forschung vielerprobtes Text Mining Verfahren ist die sogenannte Sentiment-Analyse. Dabei sollen Texte möglichst automatisiert auf die in ihnen ausgedrückten Stimmungen, Haltungen oder auch Emotionen ausgewertet werden. Unternehmen nutzen dieses Verfahren gerne (oder lassen es sich gerne von anderen Unternehmen verkaufen), um z.B. zu erfahren, ob sich die Twittersphäre eher positiv oder eher negativ über ihre Produkte äußern.
Ein relativ simpler Zugang ist der lexikonbasierte Ansatz. Es werden vorab Listen mit Wörtern erstellt, die typischerweise positive oder negative Haltungen ausdrücken. Und je nach Stärkegrad wird den Wörtern ein sog. Sentiment Score zwischen +1 und -1 zugewiesen. Diese Listen lassen sich leicht mit Textkorpora matchen, für die dann auch ein durchschnittlicher Sentiment Score errechnet werden kann.
In seiner Einfachheit ist das Verfahren natürlich fehleranfällig. Schon mit Negationen hat man seine liebe Mühe, erst recht mit impliziten Bewertungen oder Ironie. Auf einzelne, kurze Texte wie etwa Tweets bezogen sind Irrtümer eigentlich vorprogrammiert. Das typische Nutzungsszenario richtet sich aber genau aus diesem Grund auch eher auf große Textmengen und Durchschnittswerte. Und hier funktioniert es eben doch ganz gut.
Fußballeinzelkritiken als Testmaterial
In meinen Korpora zur Fußballlinguistik schlummert im nicht-öffentlichen Bereich auch ein Korpus mit 29570 Einzelkritiken (1,48 Mio. Tokens) von sportal.de (textidentisch zu den berühmten Einzelkritiken auf spox.com). Das sind kurze Texte, in denen die Leistungen aller Spieler eines Bundesligaspieltags bewertet werden, und zusätzlich wird noch eine Schulnote vergeben. Die Noten lassen sich als Metadaten auffassen, welche sich mit den im Text sprachlich ausgedrückten Bewertungen korrelieren lassen. Ideales Material also für ein paar Testläufe in Sachen Sentiment-Analyse.
Gemacht habe ich das mit SentiWS, ein an der Universität Leipzig entwickeltes und frei verfügbares deutschsprachiges Sentiment-Lexikon. Erstellt wurde es, wie man hier nachlesen kann, einerseits auf der Grundlage von klassischen Wörterbüchern, andererseits basierend auf einem Korpus von Produkt-Ratings (Amazon oder sowas in der Art), die mit der Kombination von Text und vergebenen Sternen ganz ähnlich strukturiert sind wie meine Einzelkritiken. In der Anwendung von SentiWS auf eben diese Einzelkritiken kann ich also schauen, ob man in einer thematisch anderen Domäne das wieder aus dem Lexikon rausholen kann, was vorher hineingelegt wurde.
Ich habe also für jeden Text den Sentiment Score berechnet (Summe der Scores / Anzahl der eingegangenen Wörter) und die Ergebnisse gruppiert nach Noten aggregiert. Und siehe da, das Ergebnis ist gut: Eine Sortierung nach durchschnittlichen Sentiment Scores entspricht vollständig der Sortierung nach Noten:
Note | Sentiment Score |
1 | 0.07213812 |
1.5 | 0.07052414 |
2 | 0.06700567 |
2.5 | 0.05505059 |
3 | 0.02731389 |
3.5 | -0.0164272 |
4 | -0.0542471 |
4.5 | -0.0917573 |
5 | -0.1115546 |
5.5 | -0.1627656 |
6 | -0.202931 |
Die Streuung ist zwar riesig (wie man hier sehen kann), aber mit den Mittelwerten haut es wirklich gut hin.
Ein ähnlich gutes Ergebnis bekomme ich, wenn ich zuerst Subkorpora nach Noten bilde und dann gleiche für diese einen Sentiment Score berechne:
Note | Sentiment Score |
1 | 0.07724109 |
1.5 | 0.06087368 |
2 | 0.06061081 |
2.5 | 0.04930563 |
3 | 0.02152049 |
3.5 | -0.0158618 |
4 | -0.0553988 |
4.5 | -0.0883849 |
5 | -0.1123418 |
5.5 | -0.1557033 |
6 | -0.1725323 |
Mit der nötigen Distanz zum Einzeltext scheint SentiWS also auch für Fußballeinzelkritiken eine geeignete Ressource zu sein. Oder anders herum: Auch die Autor*innen von Einzelkritiken drücken sich so aus, wie es von SentiWS sozusagen vorhergesagt ist.
Sentiments auf Wortebene
Aber zoomen wir doch noch einmal näher an die Texte heran. Ich habe mal für die ersten 250 Texte die Ergebnisse ausgeben lassen, also den Sentiment Score und – farblich hervorgehoben – die in die Berechnung eingegangen Wörter. Hier sind die Ergebnisse (über diesen Link als eigene Seite aufrufbar):
Die Probleme des Ansatzes werden hier schnell offenkundig: Manchmal wird nur ein einziges Wort berücksichtigt und fällt deshalb wohl zu stark ins Gewicht. In anderen Fällen fallen Negationen unter den Tisch. Vor allem aber sieht man, dass man eigentlich ein domänenspezifisches Lexikon bräuchte, um mit einigen lexikalisch-semantischen Besonderheiten umgehen zu können. Weder aggressiv noch Angriff können im Fußball als negativ gelten. Andererseits werden klar wertende Wörter wie Matchwinner gar nicht berücksichtigt.
Interessant ist schließlich auch, welche positiven und negativen Sentiment-Wörter im gesamten Korpus besonders häufig vorkommen und wegen ihres Scores besonders ins Gewicht fallen. Ein durch die Brille von SentiWS betrachteter Katalog von Dingen, die in Fußballspielen aus journalistischer Sicht besonders positiv bzw. negativ sind:
Lexem | aggregierter Sentiment-Score | Anzahl |
---|---|---|
gut | 4451.768 | 11980 |
sicher | 640.2095 | 1715 |
groß | 637.9538 | 1727 |
besonders | 372.5181 | 691 |
wichtig | 321.4302 | 841 |
überzeugen | 250.6248 | 738 |
gelungen | 233 | 233 |
toll | 211.7588 | 418 |
Glück | 207.194 | 845 |
perfekt | 185.3946 | 254 |
Ruhe | 165.561 | 330 |
glänzen | 123.6508 | 364 |
ruhig | 117.502 | 308 |
helfen | 113.765 | 305 |
schnell | 110.8212 | 948 |
klug | 89.3596 | 253 |
überzeugend | 87.5355 | 195 |
fein | 79.5312 | 168 |
erfolgreich | 63.597 | 290 |
strahlen | 62.5508 | 299 |
Erfolg | 62.028 | 180 |
kreativ | 58.65 | 100 |
feiern | 53.352 | 108 |
fleißig | 49.994 | 140 |
aktiv | 49.0118 | 538 |
Schwung | 47.362 | 199 |
absolut | 46.4256 | 192 |
hervorragend | 45.9498 | 78 |
wunderbar | 41.9572 | 58 |
nah | 41.4861 | 183 |
gefallen | 37.381 | 145 |
souverän | 36.7587 | 517 |
klasse | 34.74 | 100 |
spielerisch | 33.2 | 166 |
großartig | 32.242 | 70 |
fair | 30.8414 | 94 |
mögen | 29.325 | 85 |
agil | 28.9932 | 148 |
herrlich | 27.4797 | 57 |
sauber | 27.3581 | 77 |
bemerkenswert | 27.09 | 60 |
ansprechend | 26.7178 | 79 |
vorbereiten | 26.5216 | 256 |
beeindruckend | 26.2416 | 77 |
wunderschön | 26.0776 | 37 |
enorm | 25.6828 | 286 |
exzellent | 24.7682 | 59 |
sehenswert | 23.7697 | 251 |
scharf | 21.8056 | 97 |
Vertrauen | 21.072 | 60 |
praktisch | 20.6226 | 201 |
heben | 19.971 | 90 |
zuverlässig | 19.6992 | 96 |
optimal | 19.458 | 90 |
traumhaft | 19.261 | 34 |
Engagement | 18.5502 | 86 |
belohnen | 18.4851 | 207 |
glänzend | 18.3216 | 88 |
glücklich | 18.285 | 159 |
verdienen | 18.0987 | 183 |
vorbildlich | 17.8528 | 56 |
Mut | 17.6697 | 29 |
prima | 17.298 | 30 |
tadellos | 16.377 | 53 |
Talent | 16.0896 | 48 |
engagiert | 15.7289 | 181 |
stabil | 15.6464 | 154 |
effektiv | 15.536 | 160 |
unglaublich | 15.5316 | 42 |
mutig | 14.427 | 42 |
heiß | 14.228 | 40 |
stark | 13.372 | 3343 |
zufrieden | 13.362 | 34 |
clever | 13.0094 | 58 |
fit | 12.901 | 35 |
wertvoll | 12.852 | 36 |
spannend | 12.1805 | 17 |
brillant | 11.9496 | 39 |
lieb | 11.6493 | 103 |
verdient | 11.5584 | 32 |
Freude | 11.0534 | 17 |
riesig | 10.9296 | 24 |
Hoffnung | 10.5976 | 52 |
schenken | 10.404 | 51 |
freundlich | 10.2374 | 17 |
eindrucksvoll | 10.2034 | 34 |
freuen | 9.891 | 45 |
reichlich | 9.7659 | 27 |
genial | 9.4864 | 44 |
ordentlich | 9.0885 | 1245 |
locker | 9.0478 | 38 |
überdurchschnittlich | 9 | 100 |
vernünftig | 8.59 | 25 |
gewinnen | 8.516 | 2129 |
mächtig | 8.4249 | 37 |
hoffen | 8.3448 | 36 |
motivieren | 8.3176 | 37 |
wachsen | 8.2961 | 23 |
Lob | 7.9706 | 11 |
robust | 7.8408 | 81 |
Lexem | aggregierter Sentiment-Score | Anzahl |
---|---|---|
schwach | -1548.4492 | 1682 |
gefährlich | -1019.1966 | 1601 |
Fehler | -893.2896 | 1323 |
Gefahr | -854 | 854 |
schlecht | -605.6916 | 786 |
fehlen | -595.515 | 1110 |
verlieren | -565.134 | 1438 |
Problem | -456.07 | 1180 |
unnötig | -340.668 | 360 |
Schuld | -318.6694 | 329 |
unglücklich | -237.79 | 790 |
Ende | -230.9328 | 1106 |
Pech | -215.1058 | 446 |
Angriff | -213.484 | 1007 |
fallen | -209.4869 | 973 |
knapp | -204.2108 | 1003 |
falsch | -194.259 | 255 |
Schwäche | -135.945 | 270 |
Gegner | -126.936 | 369 |
unterlaufen | -120.6738 | 351 |
machtlos | -119.6307 | 357 |
unsicher | -116.5848 | 186 |
negativ | -115.8066 | 234 |
verletzt | -107.1612 | 206 |
klein | -99.0975 | 365 |
Verletzung | -94.0984 | 187 |
ungenau | -93.933 | 189 |
Unsicherheit | -85.92 | 240 |
Niederlage | -83.973 | 230 |
stören | -76.59 | 230 |
zwingen | -76.1175 | 153 |
verletzen | -73.746 | 204 |
Risiko | -72.135 | 105 |
glücklos | -70.1781 | 223 |
bestrafen | -69.7595 | 145 |
Vorwurf | -60.6305 | 119 |
grob | -59.0655 | 169 |
leider | -57.9227 | 121 |
aggressiv | -56.05 | 125 |
kämpfen | -52.6984 | 152 |
katastrophal | -52.1202 | 106 |
ungeschickt | -48.696 | 80 |
brechen | -43.9505 | 55 |
gering | -41.7123 | 63 |
schlicht | -38.626 | 62 |
Kampf | -37.0668 | 69 |
undankbar | -35.9784 | 114 |
Not | -31.4928 | 144 |
unfair | -30.8945 | 35 |
bitter | -29.5278 | 87 |
übersehen | -29.2296 | 57 |
vorwerfen | -27.3336 | 84 |
ausfallen | -26.1075 | 75 |
böse | -25.9346 | 62 |
hart | -24.7661 | 167 |
auffallen | -24.7178 | 73 |
trennen | -24.6617 | 49 |
Mangel | -23.1147 | 63 |
schließen | -22.366 | 106 |
vermeiden | -21.5865 | 41 |
behindern | -20.9196 | 27 |
haarsträubend | -20.4028 | 44 |
vorzeitig | -20.0796 | 58 |
unfreiwillig | -19.9538 | 59 |
Unruhe | -19.296 | 96 |
Kritik | -19.1088 | 36 |
unterirdisch | -18.3885 | 39 |
mangelhaft | -16.975 | 50 |
stoßen | -16.3898 | 46 |
Unrecht | -15.7666 | 31 |
dumm | -15.3426 | 26 |
Missverständnis | -14.7436 | 31 |
aussetzen | -14.6759 | 43 |
fahrlässig | -14.6454 | 42 |
schlagen | -13.9842 | 457 |
Defizit | -13.88 | 40 |
gnadenlos | -13.8759 | 23 |
schuldig | -13.5456 | 17 |
Ausfall | -13.4168 | 62 |
leiden | -13.2468 | 83 |
Rückstand | -13.167 | 209 |
ersticken | -13.164 | 40 |
unangenehm | -13.1348 | 28 |
überflüssig | -12.3696 | 24 |
provozieren | -12.1284 | 36 |
riskieren | -11.9808 | 36 |
täuschen | -11.7648 | 19 |
schlimm | -10.912 | 64 |
ungünstig | -10.738 | 14 |
Verwirrung | -10.3013 | 31 |
sorgen | -10.248 | 2135 |
drängen | -10.1964 | 29 |
bedenklich | -10.0113 | 13 |
ärgerlich | -9.9552 | 32 |
nachlässig | -9.921 | 30 |
Verdacht | -9.6888 | 12 |
fehlerhaft | -9.6687 | 27 |
fragwürdig | -9.2302 | 19 |
umständlich | -9.0662 | 26 |
kurz | -8.7648 | 1826 |
Literatur
Meier, Simon (2019): Einzelkritiken in der Fußballberichterstattung. Evaluativer Sprachgebrauch aus korpuspragmatischer Sicht. In: Muttersprache 129, S. 1–23.
Schreibe einen Kommentar