Kategorie: Liveticker (Seite 1 von 2)

Football Word Embeddings Pt. 2: Visualisierung des Modells

Im vorangegangenen Blogpost „Football Word Embeddings“ habe ich gezeigt, wie man mit dem Algorithmus Word2Vec ein Korpus von Fußballlivetickern in lexikalischer Perspektive datengeleitet erschließen kann. Jetzt habe ich mit dem großartigen Tensorflow Embeddings Projector eine Möglichkeit entdeckt, das Modell zu visualisieren und – das ist das beste daran – auch für andere zur Verfügung stellen zu können.

Weiterlesen

Football Word Embeddings

Eine der faszinierendsten Methoden der Korpuslinguistik ist die Berechnung von sogenannten Word Embeddings. Über die technischen Details kann und will ich hier nicht viele Worte verlieren, aber ganz kurz gesagt setzt die Methode die uralte Hypothese der distributionellen Semantik um: „You shall know a word by the company it keeps.“ Wörter, die in ähnlichen Kontexten vorkommen, haben demnach eine ähnliche Bedeutung.

Durch neuronale Netze stehen heute Technologien zur Verfügung, um eine in distributionellen Termini vorgenommene Beschreibung der Bedeutung von Wörtern auch auf der Basis sehr großer Datenmengen durchführen zu können. Ein populärer Algorithmus ist word2vec, der, wie der Name schon andeutet, Wörter auf Vektoren abbildet und so einen semantischen Raum modelliert. In diesem Raum, so die Idee, liegen bedeutungsähnliche Wörter nah beieinander, so dass man recht einfach Synonyme erheben kann.

Weiterlesen

Goals from the remote past

Für ein aktuelles Publikationsprojekt habe ich vom Kicker Zugriff auf das digitale Archiv erhalten. Über 100 Jahre Fußballgeschichte, von der ersten Ausgabe 1920 bis heute. Eine ideale Ressource, um den Twitteraccount „Goals from the past“ (@retrolivetext), über den Jürgen Hermes und ich die Verläufer historischer Fußballspiele tickern, einmal mit ‚wirklich‘ historischen Partien zu bespielen. Goals from the remote past sozusagen. Die demnächst anstehenden Testspiele gegen Dänemark und Lettland werden wir dafür nutzen (mit den Partien von 1927 und 1937), und auch das EM-Vorrundenspiel gegen Ungarn haben wir im Programm mit – oh Wunder – dem Wunder von Bern 1954.

Weiterlesen

Liveticker – Evolution einer Textsorte aus quantitativer Sicht

Der Fußballliveticker ist eine recht junge Textsorte. Seit wann genau Internetseiten ihn anbieten, weiß ich nicht, aber wenigstens die Liveticker-Archive von weltfussball.de und kicker.de reichen nicht weiter als bis ins Jahr 2002 zurück, und erst zur Saison 2003/04 wurde eine ganze Bundesligasaison durchgängig getickert. Andererseits ist mit nunmehr 17 Jahrgängen die Textsorte auch nicht mehr ganz so neu, so dass man schon jetzt ein paar textsortenhistorische Überlegungen anstellen kann.

Weiterlesen

Ein Streifzug durch die Sprache des Fußballs

An der Dresdner Langen Nacht der Wissenschaften 2020 hätte ich eigentlich einen Vortrag halten sollen zum Thema „Das Runde muss ins Eckige – Ein Streifzug durch die Sprache des Fußballs“. Geplant war ein launiger und interaktiver Vortrag mit anschließender Livedemonstration automatisierter Textgenerierung. Da aber die Lange Nacht coronabedingt ausfällt, habe ich den Vortrag in abgeänderter Form als YouTube-Video eingesprochen und gebe ihn ins Programm des Digitaltags 2020. Voilà, viel Spaß!

Die Sprache der Geisterspiele

Im Vorfeld der ersten Geisterspiele nach dem sogenannten Re-Start der Bundesliga habe ich mich gefragt, wie die Fußballberichterstattung über diese Spiele wohl aussehen würde. Wie würden die Livekommentator*innen, die Liveticker- und Spielberichtsautor*innen das Fußballspektakel inszenieren, wenn doch ohne Fans im Stadion zunächst einmal wenig Spektakel geboten wird. Wie würde es ihnen gelingen, Emotionen zu erzeugen, wenn auch die Spieler auf dem Rasen gehalten sind, sich etwa beim Torjubel merklich zurückzuhalten?

Weiterlesen

Kontrastive Fußballidiomatik

In einem früheren Blogpost habe ich eine korpuslinguistische Methode zur automatisierten Detektion von ‚Phrasen‘ vorgestellt. Die basiert auf einer sog. Kollokationsanalyse und funktioniert kurz gesagt so, dass in einem Korpus Wortpaare gefunden werden, deren Bestandteile für sich genommen selten, dafür aber recht häufig zusammen vorkommen (und zwar im statistischen Sinne signifikant häufig). Thematisch homogene Korpora wie etwa Liveticker-Korpora sind hierfür ideal, denn wenn bspw. in Livetickern überhaupt von einer Messe die Rede ist, dann wohl immer in der Weise, dass sie (noch nicht) gelesen ist. Der Phrasendetektor findet also Wortverbindungen, deren Komponenten in ihrer wörtlichen Bedeutung thematisch nicht einschlägig sind, dafür aber in genau dieser Kombination idiomatische Bedeutung haben und als Idiome wiederum sehr domänentypisch sind.

Weiterlesen

Ein Update für den Livetickergenerator

Seit gut einem halben Jahr spuckt der Livetickergenerator 11 mal täglich zufallsgenerierte Livetickermeldungen in die Twittersphere. Und auch wenn die Summe der Kombinationsmöglichkeiten die Menge der bisher abgesetzten Tweets um ein vielfaches übertrifft, macht sich langsam Langeweile breit. Zeit also für ein Update, und was wäre hierfür ein besserer Anlass als die anstehende WM?

Die WM-Edition des Livetickergerators, die am 31. Mai ihren Dienst aufgenommen hat, wartet mit folgenden Änderungen auf:

  • Die Daten stammen von weltfussball.de (und sind ebenfalls über die Korpora zur Fußballlinguistik frei zugänglich).
  • Die Namen von Spielern und Trainern sind jetzt brandaktuell, sind also den offiziellen Kaderlisten entnommen, wie sie der FIFA gemeldet wurden.
  • Die Spielernamen werden deshalb auch nicht völlig frei, sondern den Teams und matchweisen Gegnerschaften entsprechend kombiniert.
  • Jedem Tweet wird ein Hashtag mit den beiden Ländercodes der beteiligten Mannschaften beigegeben.

Bestehen bleibt dagegen dass Prinzip, dass der Livetickergenerator nichts erfindet, sondern nur authentische Meldungen in Chunks auftrennt und diese dann neu kombiniert. Glichen aber die bisherigen Meldungen der Dante’schen Vorhölle, wo sich Spieler zum Austausch von Doppelpässen begegneten, die im wahren Leben nie zusammen gespielt haben, sind die neuen Meldungen eher Ausdruck einer Realutopie, in der auch die zweiten und dritten Torhüter der aktuellen Kader ihre Chance bekommen.

Außerdem wurden dank neu erworbener Programmierkenntnisse, die eine viel flexiblere und verschachtelte Rekombination erlauben, die Paradigmen der einzelnen Chunks um ein vielfaches erweitert. Auch die in der Erstfassung noch eingehaltene 140-Zeichen-Grenze ist längst gefallen, so dass auch solche Perlen möglich werden:

Nach atemberaubendem Direktspiel flankt Eduardo Salvio das Kunstleder rüde zu Gabriel Mercado, der aber kann den Ball nur verlängern und so hat Marc-André ter Stegen die Kugel ganz schnell in seinen Händen. #ARGGER

Säbeln, dreschen, schlumpfen – ein interaktives Netzwerk

Der vielgerühmte Reichtum der Fußballsprache an Quasisynonymen ist nirgends so groß wie im Bereich der Verben für die verschiedenen Arten des Schießens. Das liegt nicht nur daran, dass es so viele verschiedene Schusstechniken gibt. Zwar mag man zwischen lupfenchippen und schieben anhand der exakten Bewegung von Spieler und Ball gut unterscheiden können, aber der Unterschied zwischen hämmernnageln, dreschen und zimmern dürfte überall, nur nicht in den damit bezeichneten Akten des Schießens zu suchen sein.

Ein wirksames Prinzip in Livetickern scheint neben dem ohnehin geltenden Gebot zur ständigen Variation (die Spieler wemmsen eben, wenn sie zuvor genagelt haben) auch das der, wie ich es nennen möchte, stilistischen Isotopie zu sein. Expressive Jargonverben werden eher mit zusammen mit anderen Jargonausdrücken kombiniert, weshalb eher das Leder in die Maschen gezimmert, der Ball dagegen eher in die Mitte gespielt wird.

Außerdem gibt es auch anbieterspezifische Unterschiede. Der Kicker-Liveticker hat andere Verben in petto als etwa der von sportal.de – und besonders extravagant ist sicher der von 11 Freunde. Um sich die ganze Bandbreite der Verben wie auch die anbieterspezifischen Vorliegen mit einem Mal zu vergegenwärtigen, bietet sich eine Visualisierung in Form eines Netzwerks an. Eine smartphonetaugliche Variante bette ich direkt hier ein, für alle Desktopnutzenden empfehle ich diese interaktive Variante.

Das Netzwerk zeigt alle lemmatisierten Füllwerte der Konstruktion VVFIN {den | die | das} {Ball |Ei | Kugel | Kunstleder | Leder | Murmel | Pille | Rund | Spielgerät | Sportgerät} aus den Livetickern von kicker.de, sportal.de, weltfussball.de und 11freunde.de, insgesamt 185 Stück. Dabei wurden nur Troponyme für schießen berücksichtigt, Torwartverben wie fausten und nonagentive Verben wie landen habe ich bereinigt. Die Kanten im Netzwerk zeigen, in welchen Livetickern (repräsentiert durch die grünen Knoten in der Mitte) sie verwendet werden. Der verwendete Algorithmus zur Berechnung des Netzwerks geht so vor dass Knoten mit vielen Ein- und Ausgängen weiter innen stehen, so dass Verben, die in allen Livetickern zu finden sind, eher in der Mitte stehen, die idiosynkratischen dagegen eher außen. Ein Nebeneffekt davon ist der, dass man aus der Position der Website-Knoten zueinander ersehen kann, wie ähnlich sich ihre Verbparadigmen sind. Wenig überraschend zeigt sich, dass die konventionellen, vor allem auf Information abstellenden Liveticker von kicker.de, sportal.de und weltfussball.de ein Grüppchen bilden und der Liveticker von 11freunde.de eher abseits steht. In der interaktiven Variante kann man die einzelnen Knoten anklicken und sich alle Verbindungen anzeigen lassen, so dass man auf einen Blick die Verben sieht, die in einem der Liveticker verwendet werden, oder aber, in welchen Livetickern ein Verb verwendet wird.

In reinen Zahlen ausgedrückt verteilen sich die Verbparadigmen auf die vier Anbieter wie folgt:

Anbieter Types Tokens häufigste Types
kicker.de 80 8773 bringen, lenken, jagen
sportal.de 76 5363 bringen, spielen, legen
weltfussball.de 115 20173 bringen, setzen, legen
11freunde.de 126 663 schieben, köpfen, zimmern

Mein Liebling ist übrigens buttercremen. Und zum Beweis, dass ich mir das nicht ausdenke:

Tschongs für den BVB. Blaszcdingsbums buttercremt den Ball in die Mitte. Aber Lewandowsi kommt etwas zu spät. Das war knapp. Aber knapp vorbei ist eben immer auch irgendwie schmerzhaft.

Ich baue mir einen Livetickergenerator

Livetickerautoren müssen vor allem schnell sein. Da bleibt keine Zeit für das Feilen an Formulierungen. Kein Wunder also, dass sie auf vorgefertigte Phrasen zurückgreifen, die dann nur noch an einzelnen Stellen variiert werden müssen. Wer Liveticker liest, erkennt bald die Formulierungsroutinen, die immer wieder herhalten müssen, und wer viele Liveticker liest, kennt auch bald die ganzen Varianten, denen zufolge mal die Pille, mal die Kugel, mal das Leder in die Maschen, das Netz oder über die Linie gedroschen, gehämmert und genagelt wird.

In England ist man vielfach sogar so konsequent, das Tickerschreiben gleich ganz den Maschinen zu überlassen. Die Ergebnisse sind aber dürftig, denn der Computer hat kein Stilbewusstsein (oder die, die ihn programmierten, haben keines). Der BBC-Liveticker etwa stört sich auch nicht an allerauffälligsten Wiederholungen:

88′ Offside, Brighton and Hove Albion. Mat Ryan tries a through ball, but Glenn Murray is caught offside.

88′ Offside, Arsenal. Rob Holding tries a through ball, but Theo Walcott is caught offside.

Das muss doch besser gehen – besser und variantenreicher! Und zum Beweis habe ich einen rudimentären Livetickergenerator programmiert, der für einige typische Spielsituationen (erzieltes Tor, Fehlschuss, Parade), für umfassendere Spielbeschreibungen sowie für Trainerzitate zufallsbasiert Livetickermeldungen ausspuckt.

Weiterlesen

« Ältere Beiträge

© 2024 Fußballlinguistik

Theme von Anders NorénHoch ↑