Die Daten, die ich in den Korpora zur Fußballlinguistik zur für Forschungszwecke zur Verfügung stelle, sind urheberrechtlich geschützt. Deshalb können sie in CQPweb zwar recherchiert, nicht aber heruntergeladen werden. Inzwischen haben sich schon zahlreiche Linguist_innen aus ganz Europa für die Korpora registriert, um mit diesen Daten ihre eigenen Fragestellungen bearbeiten zu können. Dabei sind sie aber auf den Funktionsumfang von CQPweb angewiesen, der nicht schlecht ist aber eben doch besser sein könnte.
Und wenn ich schon die Daten selbst nicht teilen kann, so will ich doch wenigstens die Hürden senken, die an der Fußballsprache Interessierte daran hindern können, sich einfach selbst die Daten zu besorgen (was, solange man sie nicht wiederum weiterverbreitet, auch erlaubt ist). Noah Bubenhofer demonstriert auf seiner Seite eine Kombination aus curl, wget und xslt, mit der man sich die Daten runterladen und aufbereiten kann. Das funktioniert gut, und ich empfehle allen, es selbst zu lernen. Noch einfacher ist es aber mit den Standalone-Skripts, die ich seit heute auf GitHub zur Verfügung stelle. In den Skripts müssen nur die Start-URL und der Pfad für die Output-File angepasst werden, und schon lädt einem das Skript Liveticker und Spielberichte ganzer Spielzeiten oder Turniere herunter und gibt sie als saubere xml-Dateien aus.
Für den Import in die Corpus Workbench oder die niedrigschwellige Analyse mit AntConc o.ä. ist noch ein weiterer Transformationsschritt nötig, der die Metadaten als xml-Attribute ausgibt. Entsprechende xsl-Stylesheets sind auf GitHub ebenfalls verfügbar.