Eine der faszinierendsten Methoden der Korpuslinguistik ist die Berechnung von sogenannten Word Embeddings. Über die technischen Details kann und will ich hier nicht viele Worte verlieren, aber ganz kurz gesagt setzt die Methode die uralte Hypothese der distributionellen Semantik um: „You shall know a word by the company it keeps.“ Wörter, die in ähnlichen Kontexten vorkommen, haben demnach eine ähnliche Bedeutung.
Durch neuronale Netze stehen heute Technologien zur Verfügung, um eine in distributionellen Termini vorgenommene Beschreibung der Bedeutung von Wörtern auch auf der Basis sehr großer Datenmengen durchführen zu können. Ein populärer Algorithmus ist word2vec, der, wie der Name schon andeutet, Wörter auf Vektoren abbildet und so einen semantischen Raum modelliert. In diesem Raum, so die Idee, liegen bedeutungsähnliche Wörter nah beieinander, so dass man recht einfach Synonyme erheben kann.
Zu Testzwecken habe ich einmal mit meinem weltfussball-Livetickerkorpus (Bundesliga 2003–2021, 12 Mio. Tokens) Word Embeddings auf Lemmabasis berechnet. Jetzt kann ich datengeleitet Synsets erheben, wie man in WordNet-Terminologie sagen würde, z.B. die ähnlichsten Wörter zu Flanke, und zwar nach absteigender Ähnlichkeit:
Hereingabe, Zuspiel, Freistoßflanke, Flankenball, Querpass, Pass, Freistoßhereingabe, Anspiel, Steilpass, Freistoß-Flanke, Ablage, Flachpass, Diagonalpass, Diagonalball, Halbfeldflanke, Flankenwechsel, Bogenlampe, Kopfballablage, Freistoß-Hereingabe, Kopfballverlängerung
Ziemlich beeindruckend, wie ich finde! Und das Ganze geht natürlich auch mit Adjektiven wie gefährlich:
brandgefährlich, brenzlig, zwingend, ungefährlich, zielgerichtet, vielversprechend, gefällig, brauchbar, konstruktiv, vernünftig, Gefahr, aussichtsreich, nennenswert, durchdacht, flüssig, heikel, durchdenken, anfällig, nachlässig, zielstrebig
Oder auch mit Verben wie schießen:
zimmern, abziehen, ballern, schlenzen, zielen, köpfen, hämmern, donnern, hauen, dreschen, knallen, draufhalten, abschließen, schieben, einschießen, ziehen, jagen, feuern, visieren, zirkeln
Wir können das Modell auch zur Vorhersage von Fortsetzungen verwenden, ganz so, wie wir es vom Smartphone oder von der Google-Suche kennen. Als Fortsetzungen für was für ein schlägt er mir sinnigerweise vor:
Dramatik, Auftakt, Bock, Strahl, Geduldsprobe
Außerdem kann ich den gesamten semantischen Raum clustern, also sozusagen Bereiche finden, wo sich viele Wörter auf engem Raum tummeln. In Anlehnung an diese Methode habe ich einmal 50 Cluster berechnet. Ich gebe sie hier vollständig wieder:
Die Ergebnisse finde ich sehr aufschlussreich. Manche Cluster wie etwa #4 sind tatsächlich Sammlungen von Quasi-Synonymen zu schießen, und zwar vor allem in der Angriffsbewegung. In #27 finden wir hingegen Verben, die eher abwehrende Schüsse bezeichnen.In #7 finden wir Bezeichnungen für Schüsse hinsichtlich der Schusstechnik, während wir in #8 eher Beschreibungen von Schüssen mit Blick auf ihren (ausbleibenden) Torerfolg finden. In allen diesen Clustern aber zeigt sich wieder einmal die beeindruckende lexikalische Ausdifferenzierung, für die die Fußballsprache bekannt ist.
Schon etwas disparater ist #12, wo wir Abstrakta finden, die wir im weitesten Sinne als mentalitär beschreiben könnten. All das, was zur wertenden Erklärung des Spielverlaufs herangezogen wird, ohne konkrete Spielzüge zu adressieren. Und in #37 finden wir Beschreibungen taktischer Aspekte des Spiels.
Interessanter noch als die genannten Synonymklassen finde ich aber die Cluster, wo verschiedene Dinge zusammen vorkommen, so etwa in #3, wo Wetterbeschreibungen und Stadionnamen kombiniert werden. Das verweist auf eine Textsortenspezifik der Liveticker: In der Exposition, wie man sagen könnte, also der Beschreibung der Szenerie vor Spielbeginn kommen diese Dinge eben häufig und häufig zusammen vor. Ähnliches finden wir in #40, wo mit Aufstellung und Spielschema Dinge genannt werden, die noch vor Spielbeginn, während die Spieler im Spielertunnel stehen, berichtet werden. In #21 finden wir Wörter, die auf globale wertende Urteile zur Lage eines Clubs hindeuten, wie sie ebenfalls häufig vor oder auch nach dem Spiel vorgenommen werden.
Man könnte das Clustering natürlich noch kleinteiliger vornehmen. Aber schon hier zeigt sich das Potenzial dieses Ansatzes. Eine Steilvorlage geradezu, um auch lexikographische Dokumentationen der Fußballsprache zu ergänzen. Und auch unabhängig davon macht es einfach Spaß, sich durch die Wortlisten durchzuwühlen, denen der eigentümliche Sound von Livetickern selbst in diesem Format unverkennbar anhaftet.
Sehr schön!