Korpora zur Fußballlinguistik – Release 2017-05

Die Korpora zur Fußballlinguistik enthalten internetbasierte Texte aus dem thematischen Bereich der Fußballberichterstattung in vollständig annotierter Form (part-of-speech und Lemmata) und werden über das webbasierte Tool CQPweb öffentlich zugänglich gemacht. Das Release 2017-05 enthält die folgenden Texte:

  • Je 3060 Liveticker und Spielberichte aus den Bundesligasaisons 2006–2016 von kicker.de,
  • 5190 Liveticker zu den Wettbewerben Bundesliga, DFB-Pokal, Champions League, Weltmeisterschaft, Europameisterschaft des Zeitraums 2006–2016 von weltfussball.de,
  • 1170 Liveticker des SID Sport-Informations-Dienstes zu den Wettbewerben 1. und 2. Bundesliga, DFB-Pokal, Champions League und Europmeisterschaft des Zeitraums 2010–2016,
  • 1398 Spielanalysen der Rubriken „Bundesligaclubs“ und „Nationalteams“ des Taktikblogs spielverlagerung.de aus dem Zeitraum 2011–2017,
  • 825 Spielerkritiken aus der Rubrik „Elf des Spieltags“ zu 75 Spieltagen des Zeitraums 2015–2017 von sportschau.de.
  • 1523 Liveticker aus den Premier League-Saisons 2012-2017 von sportsmole.co.uk (englischsprachig)

Nach der Tokenisierung umfassen die Korpora derzeit 31,5 Mio. Tokens, die sich wie folgt verteilen:

Tokens Types
kicker.de – Liveticker und Spielberichte 6.200.542 60.755
weltfussball.de – Liveticker 13.077.803 121.223
SID – Liveticker 4.155.414 55.246
spielverlagerung.de – Taktikanalysen 2.332.719 60.992
sportschau.de – Elf des Spieltags 48.061 5.975
sportsmole.co.uk – Liveticker 5.730.256 29.063

Konzeption und Nutzungsmöglichkeiten

Die Korpora von kicker.de, fussballlinguistik.de und sportsmole.co.uk decken die erfassten Zeiträume und Wettbewerbe vollständig ab und eignen sich deshalb auch für diachrone Analysen. Im SID-Korpus sind die Saisons 2014–16 der 1. und 2. Bundesliga sowie die Europameisterschaften 2012 und 2016 lückenlos erfasst, die übrigen Wettbewerbe sind in Auswahl abgedeckt.

Wichtige Kriterien für die Auswahl der Quellen waren neben der Reichweite der Medien (der Fokus liegt auf nicht vereinsgebundenen Anbietern mit hohen Marktanteilen) auch technische Aspekte (nur html-basierte Seiten eignen für die hier angewendeten Methoden des automatisierten Downloads). Vor allem aber schränken die Urheberrechte die Korpora auf Texte derjenigen Anbieter ein, mit denen entsprechende Rechtevereinbarungen getroffen werden konnten (s.u.).

Gleichwohl dokumentieren die Korpora schon jetzt umfassend und repräsentativ den Schriftsprachgebrauch in einer eng umgrenzten thematischen und medialen Domäne, der internetbasierten Fußballberichterstattung. Insbesondere die in vielerlei Hinsicht einzigartige Textsorte Liveticker ist damit erstmals in größerem Umfang für korpuslinguistische Zwecke dokumentiert. Neben morphologischen und lexikographischen Fragestellungen zum domänentypischen Wortschatz (auch in diachroner Perspektive) und Fragestellungen zur textsortenbezogenen Phraseologie können dank der verfügbaren Annotationen auch Fragestellungen zu syntaktischen Mustern bearbeitet werden. Dabei sind auch sprachvergleichende Analysen möglich. Die Zugangssoftware CQPweb bietet zudem vielfache Möglichkeiten der statistischen Auswertung der Daten.

Neben allgemeinen, quantitativen wie qualitativen linguistischen Fragestellung zu internetbasiertem Schriftsprachgebrauch bieten sich die Korpora insbesondere auch für spezifischere Fragen zur Sport- und Fußballsprache an, wie sie auch im öffentlichen und journalistischen Fußballdiskurs häufig gestellt werden. Mit Blick auf die gesellschaftliche Rolle des mediatisierten Fußballs als Massenkulturphänomen können die Korpora auch für kulturanalytische Fragestellungen herangezogen werden.

In den einzelnen Korpora sind zu jedem Text Metadaten unterschiedlichen Umfangs mit Angaben etwa zu Jahr, Wettbewerb, Begegnung und URL der Originalquelle erfasst, die für eingeschränkte Suchen sowie zur Erstellung von Subkorpora zur Verfügung stehen. Die jeweils verfügbaren Metadatenkategorien können in CQPweb unter „Corpus info“ eingesehen werden, über die „Restricted query“ sind die jeweils zur Auswahl stehenden Werte einsehbar. Auf diese Weise sind etwa im kicker-Korpus analog zu den Suchmöglichkeiten der Ursprungsseite präzise Suchen z. B. nach Texten über Heimspiele einer bestimmten Mannschaft in einem bestimmten Wettbewerb möglich.

Für korpusübergreifende Keywordanalysen stehen von den einzelnen Korpora sog. public frequency lists zur Verfügung; auf diese Weise können etwa die Spielberichte von kicker.de mit den Taktikanalysen von spielverlagerung.de kontrastiert werden. Als themenunspezifisches Referenzkorpus steht ein 1,8 Mio. Tokens umfassendes Korpus vom Leipziger Wortschatz-Portal zur Verfügung. Das Korpus enthält 100.000 zufällig ausgewählte deutsche Sätze aus Online-News aus dem Jahr 2015 und kann als public frequency list für Keywordanalysen herangezogen werden.

Als Einführung in die Abfragemöglichkeiten von CQPweb, das auf der Suchsyntax der IMS Open Corpus Workbench aufbaut, sei neben der offiziellen Dokumentation das Tutorial von Noah Bubenhofer empfohlen.

Aufgrund von Urheberrechten (s.u.) sind die Korpora nur für wissenschaftliche Zwecke nutzbar und richten sie somit vor allem an Forschende und Lehrende.

Textquellen und Textrepräsentation

Die Texte von kicker.de, weltfussball.de und spielverlagerung.de wurden mithilfe der Tools import.io und wget aus dem HTML-Quelltext extrahiert und in ein CWB-taugliches xml-Format transformiert. Die Texte des SID wurden bereits im xml-Format geliefert und mussten nur noch transformiert werden.

Die Texte in den Korpora enthalten so weit wie möglich nur den eigentlichen Text selbst, also (Zwischen-)Überschriften und Absätze. Weitere Textinformationen wie Datum, Autor oder bei den SID-Livetickern zur Spielminute der Tickermeldung wurden als Metadaten (xml-Attribute) gefasst. Die Metadaten wurden also durchgängig automatisiert erhoben und lediglich auf das für CQPweb nötige Format angepasst. Abbildungen und Bildunterschriften sowie Hyperlinks wurden nicht erfasst.

Die Texte wurden orthographisch unbereinigt übernommen; Tippfehler, wie sie v. a. in Livetickern häufig sind, wurden nicht korrigiert. Lediglich die vielgestaltigen Anführungszeichen (mitunter falsch z.B. als zwei aufeinanderfolgende Apostrophe gesetzt) und Bindestriche wurden durchgängig normalisiert.

Zu jedem Text (mit Ausnahme der aus dem SID-Korpus) kann über die als Metadatum beigegebene URL die Originalquelle aufgerufen werden, so dass der Text in seiner ursprünglichen, oft multimodalen Textgestalt vollständig eingesehen werden kann.

Jeder Text trägt eine korpusübergreifend eindeutige Text ID, die wie folgt strukturiert ist:

{Quelle}_{Wettbewerb+Saison/Jahr}_{Textsorte}_{ID}

Folgende Siglen wurden vergeben:

  • Quelle: k (kicker.de), wfb (weltfussball.de), sid (SID), spvl (spielverlagerung.de), sps (sportschau.de), spm (sportsmole.co.uk)
  • Wettbewerb: BL (Bundesliga), 2BL (2. Bundesliga), DFB (DFB-Pokal), CL (Champions League), EL (Europa League), WM (Weltmeisterschaft), PL (Premier League), EM (Europameisterschaft), NT (Nationalteams)
  • Textsorte: lt (Liveticker), spb (Spielbericht), ta (Taktikanalysen), eds (Elf des Spieltags)

Bei den Taktikanalysen von spielverlagerung.de fallen unter die Kategorie „BL“ (Bundesliga) nicht nur Bundesligapartien, sondern sämtliche Spiele mit Beteiligung von Bundesligaclubs (einschließlich der Wettbewerbe DFB-Pokal, Champions League usw.); unter die Kategorie „NT“ (Nationalteams) dementsprechend Länderspiele (Turnier-, Qualifikations- und Testspiele).

Die Text IDs (z.B. „k_BL1415_spb_2600“ für einen kicker.de-Spielbericht aus der Bundesligasaison 2014/15) können bei der Zitation von Korpusbelegen gemeinsam mit einer erläuternden Notiz zur Siglenstruktur als Kurzverweis anstelle der URL genannt werden; dann müssen im Literaturverzeichnis zusätzlich die Korpora als Ganze angeführt werden. Für die Zitation wird vorgeschlagen:

Meier, Simon (Hg.) (2017): Korpora zur Fußballlinguistik (Release 2017-05), Fachgebiet Allgemeine Linguistik, Technische Universität Berlin, www.fussballlinguistik.de/korpora.

Zudem sollte auf folgende Publikation verwiesen werden:

Meier, Simon (2017): Korpora zur Fußballlinguistik – eine mehrsprachige Forschungsressource zur Sprache der Fußballberichterstattung. In: Zeitschrift für germanistische Linguistik 45(2), S. 345–349.

Textaufbereitung

Für die Tokenisierung und Annotation nach Wortarten und Lemmata im vrt-Format wurde der TreeTagger verwendet.

Für die deutschsprachigen Korpora wurde die standardmäßig verfügbare Paramater-Datei, die auf dem Stuttgart Tübigen Tagset (STTS) aufbaut, um ein manuell auf Grundlage der vorliegenden Daten erstelltes, themenspezifisches Lexikon ergänzt.  Um die gerade in den Livetickern häufigen Tippfehler abzufangen, wurden dabei aber nur Ausdrücke, die mehr als zweimal in einem Korpus vorkommen und im TreeTagger-Output mit <unknown> ausgegeben werden, manuell in die Grundform überführt und in das Lexikon aufgenommen.

Für die englischsprachigen Korpora wurden die standardmäßigen Parameter-Dateien mit dem TreeTagger Tagset verwendet

Für den finalen Output wurde die Option no-unknown gewählt, die bei unbekannten Wörtern die Wortform als Lemma ausgibt. Bei den insbesondere in Ausdrücken wie „in der 19. Minute“ oder „(19.)“ häufig vorkommenden Ordinalzahlen wird als Lemma einheitlich @ord@, bei Kardinalzahlen @card@ eingesetzt.

Urheberrechte

Die in den Korpora enthaltenen Texte sind urheberrechtlich geschützt und unterliegen den Nutzungsbestimmungen der Anbieter. Um die Korpora für Forschungszwecke öffentlich zur Verfügung stellen zu können, wurden mit den Anbietern Rechtevereinbarungen getroffen. Dies ermöglicht auch die laufende Ergänzung der Korpora um jeweils neue Texte.

Aus Gründen des Urheberrechts werden gemäß der eingeräumten Nutzungsrechte nur Textausschnitte angezeigt. Ein Download der gesamten Korpora wie auch von Teilkorpora sowie der Export ganzer Texte ist nicht nicht möglich. Es können jedoch Ergebnislisten der verschiedenen Abfragemethoden (KWIC-Listen, Frequenzlisten usw.) im tsv-Format heruntergeladen werden.

Folgende Anbieter haben bislang ihre Texte für wissenschaftliche Zwecke zur Verfügung gestellt:

Ausblick

Die Korpora zur Fußballlinguistik sind auf ständige Erweiterung angelegt. Neben der Ergänzung um die Datensätze der kommenden Spielzeiten sollen auch Texte weiterer Anbieter sowie weitere Textsorten wie Einzelkritiken aufgenommen werden. Auch Texte weiterer Sprachen, insbesondere Italienisch, Spanisch und Französisch sollen erfasst werden. Auch Liveticker zu anderen Sportarten sind mögliche Quellen. All dies steht freilich unter dem Vorbehalt, dass entsprechende Rechtevereinbarungen getroffen werden können.

Ein Teil der Daten geht in das Deutsche Referenzkorpus (DeReKo) des Instituts für deutsche Sprache, Mannheim ein und wird dort als eigenes Korpus innerhalb des W-Archivs der geschriebenen Sprache langfristig recherchierbar sein.

Danksagung

Für den technischen Support bei der Einrichtung des Servers und der Installation von CQPweb danke ich Nick Hainke.

Weiterhin danke ich Noah Bubenhofer für die vielfältige Unterstützung in korpuslinguistischen Belangen.

Schließlich danke ich dem Fachgebiet Allgemeine Linguistik der TU Berlin für die Bereitstellung des Servers.

Nachbemerkung

Diese Korpusdokumentation wurde in Anlehnung an die Criteria for Reviewing Digital Text Collections des Instituts für Dokumentologie und Editorik verfasst. In Teilen wurde zudem die Korpusdokumetation des Text+Berg-Korpus als Vorlage verwendet.