Datum: 1. Juni 2018

(Almost) Open Data

Die Daten, die ich in den Korpora zur Fußballlinguistik zur für Forschungszwecke zur Verfügung stelle, sind urheberrechtlich geschützt. Deshalb können sie in CQPweb zwar recherchiert, nicht aber heruntergeladen werden. Inzwischen haben sich schon zahlreiche Linguist_innen aus ganz Europa für die Korpora registriert, um mit diesen Daten ihre eigenen Fragestellungen bearbeiten zu können. Dabei sind sie aber auf den Funktionsumfang von CQPweb angewiesen, der nicht schlecht ist aber eben doch besser sein könnte.

Und wenn ich schon die Daten selbst nicht teilen kann, so will ich doch wenigstens die Hürden senken, die an der Fußballsprache Interessierte daran hindern können, sich einfach selbst die Daten zu besorgen (was, solange man sie nicht wiederum weiterverbreitet, auch erlaubt ist). Noah Bubenhofer demonstriert auf seiner Seite eine Kombination aus curl, wget und xslt, mit der man sich die Daten runterladen und aufbereiten kann. Das funktioniert gut, und ich empfehle allen, es selbst zu lernen. Noch einfacher ist es aber mit den Standalone-Skripts, die ich seit heute auf GitHub zur Verfügung stelle. In den Skripts müssen nur die Start-URL und der Pfad für die Output-File angepasst werden, und schon lädt einem das Skript Liveticker und Spielberichte ganzer Spielzeiten oder Turniere herunter und gibt sie als saubere xml-Dateien aus.

Für den Import in die Corpus Workbench oder die niedrigschwellige Analyse mit AntConc o.ä. ist noch ein weiterer Transformationsschritt nötig, der die Metadaten als xml-Attribute ausgibt. Entsprechende xsl-Stylesheets sind auf GitHub ebenfalls verfügbar.

Weiterlesen

Goals from the past

Meine Fußballkorpora sind, wenn man so will, historische Korpora. Schließlich sind die meisten der enthaltenen Texte so gegenwartsorientiert, dass man sie schon eine Woche nach ihrem Entstehen eigentlich nur noch aus einem historischen Interesse heraus lesen würde.

Nun spielen aber in der Fußballberichterstattung, auch wenn sie selbst möglichst aktuell sein muss, historische Rückblenden ohnehin eine wichtige Rolle. Kaum eine Vorberichterstattung kommt aus ohne die oft pathetisch aufgeladenen Rückblicke auf die letzten Aufeinandertreffen sich nun abermals duellierenden Mannschaften. Selbst in Liveticker-Apps wie FotMob werden zu jedem Match unter der Bezeichnung „Head to Head“ die vergangenen Begegnungen mitgeliefert. Und auch die so gerne angeführten „Statistiken“ wie „seit so und so vielen Partien nicht mehr dieses oder jenes“ stellen das gegenwärtige Geschehen in den Lichtkreis des Vergangenen.

Zusammen mit Jürgen Hermes, einem Digital Humanist und fleißigen Twitterer aus Köln, habe ich nun für die kommende WM ein Projekt gestartet (bzw. aufgehübscht und fortgesetzt), in dem wir diesen Vergangenheitsbezug der Fußballberichterstattung auf eine nette Weise inszenieren und zelebrieren wollen. Der Twitter-Account @retrolivetext wird zu den Spielen, die im Zeitalter der Liveticker (also ab 2002) schon einmal stattgefunden haben, die alten Tickermeldungen zeitlich parallel nochmals in den Äther schicken. Über die technischen Hintergründe (ich habe die Daten geliefert, die Programme zur automatisierten Auslesen und Aufbereiten für Twitter hat Jürgen Hermes geschrieben), aber auch zum gesellschaftstheoretischen Überbau des Projekts informiert ausführlich dieser Blogpost.

Wie sehr das Vergangene gegenwärtig ist bzw. gemacht wird, wird sich dann zeigen, wenn z.B. während der Vorrundenpartie Deutschland gegen Schweden Lukas Podolski seine linke Klebe auspackt…

© 2018 Fußballlinguistik

Theme von Anders NorénHoch ↑