Die Daten, die ich in den Korpora zur Fußballlinguistik zur für Forschungszwecke zur Verfügung stelle, sind urheberrechtlich geschützt. Deshalb können sie in CQPweb zwar recherchiert, nicht aber heruntergeladen werden. Inzwischen haben sich schon zahlreiche Linguist_innen aus ganz Europa für die Korpora registriert, um mit diesen Daten ihre eigenen Fragestellungen bearbeiten zu können. Dabei sind sie aber auf den Funktionsumfang von CQPweb angewiesen, der nicht schlecht ist aber eben doch besser sein könnte.

Und wenn ich schon die Daten selbst nicht teilen kann, so will ich doch wenigstens die Hürden senken, die an der Fußballsprache Interessierte daran hindern können, sich einfach selbst die Daten zu besorgen (was, solange man sie nicht wiederum weiterverbreitet, auch erlaubt ist). Noah Bubenhofer demonstriert auf seiner Seite eine Kombination aus curl, wget und xslt, mit der man sich die Daten runterladen und aufbereiten kann. Das funktioniert gut, und ich empfehle allen, es selbst zu lernen. Noch einfacher ist es aber mit den Standalone-Skripts, die ich seit heute auf GitHub zur Verfügung stelle. In den Skripts müssen nur die Start-URL und der Pfad für die Output-File angepasst werden, und schon lädt einem das Skript Liveticker und Spielberichte ganzer Spielzeiten oder Turniere herunter und gibt sie als saubere xml-Dateien aus.

Für den Import in die Corpus Workbench oder die niedrigschwellige Analyse mit AntConc o.ä. ist noch ein weiterer Transformationsschritt nötig, der die Metadaten als xml-Attribute ausgibt. Entsprechende xsl-Stylesheets sind auf GitHub ebenfalls verfügbar.

Eine Schritt-für-Schritt-Anleitung für MacUser

Nehmen wir als Beispiel das Skript weltfussball_livetext.pl. Auf GitHub kann der Code des Skripts markiert und kopiert und dann in einen einfache Texteditor  eingefügt werden. An zwei Stellen müssen Anpassungen vorgenommen werden: Es muss die gewünschte Start-URL angebeben werden, die man auf weltfussball.de jeweils unter „Spielplan“ findet. Außerdem muss der Pfad definiert werden, unter dem die Ergebnisdatei gespeichert werden soll.

Wer sich hier unsicher ist, kann das Terminal zuhilfe nehmen, dass man später eh braucht. Man findet es über die Lupe oben rechts nehmen der Uhrzeit, wo man „Terminal“ eingeben muss. Ein Doppelklick öffnet das Programm. Auf dem Mac kann man nun per Drag’n’Drop den gewünschten Zielordner aus dem Finder ins Terminal ziehen, wo dann der vollständige Pfad angezeigt wird. Und genau so muss er dann im Skript vor der Variable $filename angegeben werden, z.B. so:

my $path = "/Users/Simon/Dokumente/$filename.xml";

Jetzt kann das Programm an geeigneter Stelle mit der Dateiendung .pl gespeichert werden.

Gestartet wird das Skript vom Terminal aus. Man gibt perl und anschließend den Pfad zum Programm. Auch das kann wieder per Drag’n’Drop erledigt werden, so dass dann der Befehl z.B. so aussieht:

perl /Users/Simon/Perl/weltfussball_livetext.pl

Jetzt sollte das Programm starten und auch Zwischenstandsmeldungen der Form „Lade Nr. 1 von 306“ usw. ausgeben.

Die xsl-Transformation, die man z.B. braucht, wenn man die Daten mit AntConc analysieren will, kann ebenfalls über das Terminal geschehen. Dazu wird das vorinstallierte Programm xsltproc zusammen mit dem xsl-Stylesheet und der zu transformierenden Datei aufgerufen. Das Ergebnis wird mit „>“ in eine neue Datei umgeleitet. Der Befehl sieht dann bspw. so aus:

xsltproc /Users/Simon/xml/livetext.xsl /Users/Simon/Dokumente/bundesliga-2017-2018.xml > /Users/Simon/Dokumente/bundesliga-2017-2018_transformed.xml

Diese Datei kann in AntConc geöffnet werden. Über die Global Settings können Tags in spitzen Klammern aus der Suche ausgeschlossen werden, so dass nur der eigentliche Text ausgewertet wird. Die Datei eignet sich aber auch für den Import in die Corpus Workbench, wo die Attribute dann als Metadaten zur Verfügung stehen und z.B. zur Gruppierung von Suchtreffern verwendet werden können.