Korpora zur Fußballlinguistik – Release 2021-09

Die Korpora zur Fußballlinguistik enthalten internetbasierte Texte aus dem thematischen Bereich der Fußballberichterstattung in verschiedenen europäischen Sprachen in vollständig annotierter Form (part-of-speech und Lemmata) und werden über das webbasierte Tool CQPweb öffentlich zugänglich gemacht. Das Release 2021-09 enthält die folgenden Texte in den Sprachen deutsch, englisch, niederländisch, französisch, spanisch, italienisch, portugiesisch, polnisch, tschechisch, russisch und griechisch:

  • Je 3060 Liveticker und Spielberichte aus den Bundesligasaisons 2006–2016 von kicker.de,
  • 5192 Liveticker zu den Wettbewerben Bundesliga, DFB-Pokal, Champions League, Weltmeisterschaft, Europameisterschaft des Zeitraums 2006–2016 von weltfussball.de (sie werden insbesondere auf sportbild.de republiziert),
  • 1170 Liveticker des SID Sport-Informations-Dienstes zu den Wettbewerben 1. und 2. Bundesliga, DFB-Pokal, Champions League und Europmeisterschaft des Zeitraums 2010–2016,
  • 1993 Liveticker des  SID Sport-Informations-Dienstes verschiedener Wettbewerbe aus dem Zeitraum 2017–2020.
  • 537 Liveticker von nzz.ch zur Schweizer Super League aus den Jahren 2015–2018,
  • 2962 Spielanalysen des Taktikblogs spielverlagerung.de aus dem Zeitraum 2011–2021,
  • 290 Spielanalysen der vereinsnahen Taktikblogs halbfeldflanke.de (Schalke 04) und niemalsallein.de (Hannover 96),
  • 1158 Spielerkritiken aus der Rubrik „Elf des Spieltags“ zu 105 Spieltagen des Zeitraums 2015–2018 von sportschau.de,
  • 29.570 Einzelkritiken von sportal.de aus dem Zeitraum 2012–2016,
  • 2702 Liveticker und Spielberichte der Primera Division aus dem Zeitraum 2013–2017 von as.com (spanisch).
  • 1530 Liveticker und 1727 Spielberichte aus den Premier League-Saisons 2012-2017 von sportsmole.co.uk (englischsprachig),
  • 2476 Liveticker aus der Eredivisie und anderen Wettbewerben des Zeitraum 2011–2018 von fcupdate.nl (niederländisch),
  • 3066 Liveticker der Premjer Liga, Champions League und Weltmeisterschaft aus dem Zeitraum 2011–2018 von liveresult.ru (russisch).
  • 960 Liveticker der HET-Liga aus dem Zeitraum 2014–2018 von isport.cz (tschechisch).
  • 1421 Liveticker der Ekstraklasa aus dem Zeitraum 2016–2021 von sportowefakty.wp.pl (polnisch)
  • 1247 Liveticker der Ligue 1 aus dem Zeitraum 2013–2017 von lequipe.fr (französisch).
  • 1469 Liveticker der Ligue 1 aus dem Zeitraum 2013–2017 von matchendirect.fr (französisch).
  • 687 Liveticker der Primeira Liga aus dem Zeitraum 2002–2018 von maisfutebol.pt (portugiesisch).
  • 413 Liveticker der Superleague Ellada aus dem Zeitraum vor 2018 von sport24.gr (griechisch).
  • 3080 Liveticker zu verschiedenen Wettbewerben aus dem Zeitraum 2013–2021 von tuttomercatoweb.it (italienisch).
  • 5 Verschriftlichungen von je halbstündigen Radioreportagen der ARD-Schlusskonferenz aus der Bundesliga-Hinrunde 2017 mit insgesamt 203 einzelnen Beiträgen.

Nach der Tokenisierung umfassen die Korpora derzeit rund 75 Mio. Tokens, die sich wie folgt verteilen:

  Tokens Types
kicker.de – Liveticker und Spielberichte 6.200.542 60.755
weltfussball.de – Liveticker 13.077.803 121.223
SID – Liveticker (2010–16) 4.155.414 55.246
SID – Liveticker (2017–20) 4.770.668 53.052
NZZ – Liveticker 883,263 21.506
spielverlagerung.de – Taktikanalysen 5.102.902 106.399
Taktikblogs diverse 498.264 26.487
sportschau.de – Elf des Spieltags 69.624 7.159
sportal.de – Einzelkritiken 1.475.256 27.697
sportsmole.co.uk – Liveticker und Spielberichte 6.529.955 30.457
fcupdate.nl – Liveticker 4.706.975 37.557
liveresult.ru – Liveticker 6.573.660 85.934
sportowefakty.wp.pl – Liveticker 1.512.280 32.232
as.com – Liveticker und Spielberichte 4.106.134 48.353
isport.cz – Liveticker 2.366.568 46.461
lequipe.fr – Liveticker 2.730.803 18.243
matchendirect.fr – Liveticker 3.148.723 22.420
maisfutebol.pt – Liveticker 998.581 20.069
sport24.gr – Liveticker 593.187 22.305
tuttomercatoweb.it – Liveticker 5.505.344 45.960
ARD-Schlusskonferenz – Radioreportagen 31.992 3.799

Konzeption und Nutzungsmöglichkeiten

Die Korpora von kicker.de, fussballlinguistik.de, sportal.de und sportsmole.co.uk decken die erfassten Zeiträume und Wettbewerbe vollständig ab (soweit die Artikel noch verfügbar sind) und eignen sich deshalb auch für diachrone Analysen. Im SID-Korpus (2010–2016) sind die Saisons 2014–16 der 1. und 2. Bundesliga sowie die Europameisterschaften 2012 und 2016 lückenlos erfasst, die übrigen Wettbewerbe sind in Auswahl abgedeckt. Das zweite SID-Korpus (2017–2020) enthält Liveticker zu Partien verschiedener Wettbewerbe. Die Korpora in den übrigen Sprachen umfassen zwar auch zumeist größere Zeiträume, es kann jedoch nicht garantiert werden, dass alle Saisons vollständig erfasst sind.

Wichtige Kriterien für die Auswahl der Quellen waren neben der Reichweite der Medien (der Fokus liegt auf nicht vereinsgebundenen Anbietern mit hohen Marktanteilen) auch technische Aspekte (nur html-basierte Seiten eignen für die hier angewendeten Methoden des automatisierten Downloads).

Gleichwohl dokumentieren die Korpora schon jetzt umfassend und repräsentativ den Schriftsprachgebrauch in einer eng umgrenzten thematischen und medialen Domäne, der internetbasierten Fußballberichterstattung. Insbesondere die in vielerlei Hinsicht einzigartige Textsorte Liveticker ist damit erstmals in größerem Umfang für korpuslinguistische Zwecke dokumentiert. Neben morphologischen und lexikographischen Fragestellungen zum domänentypischen Wortschatz (auch in diachroner Perspektive) und Fragestellungen zur textsortenbezogenen Phraseologie können dank der verfügbaren Annotationen auch Fragestellungen zu syntaktischen Mustern bearbeitet werden. Dabei sind auch sprachvergleichende Analysen möglich. Die Zugangssoftware CQPweb bietet zudem vielfache Möglichkeiten der statistischen Auswertung der Daten.

Neben allgemeinen, quantitativen wie qualitativen linguistischen Fragestellung zu internetbasiertem Schriftsprachgebrauch bieten sich die Korpora insbesondere auch für spezifischere Fragen zur Sport- und Fußballsprache an, wie sie auch im öffentlichen und journalistischen Fußballdiskurs häufig gestellt werden. Mit Blick auf die gesellschaftliche Rolle des mediatisierten Fußballs als Massenkulturphänomen können die Korpora auch für kulturanalytische Fragestellungen herangezogen werden.

In den einzelnen Korpora sind zu jedem Text Metadaten unterschiedlichen Umfangs mit Angaben etwa zu Jahr, Wettbewerb, Begegnung und URL der Originalquelle erfasst, die für eingeschränkte Suchen sowie zur Erstellung von Subkorpora zur Verfügung stehen. Die jeweils verfügbaren Metadatenkategorien können in CQPweb unter „Corpus info“ eingesehen werden, über die „Restricted query“ sind die jeweils zur Auswahl stehenden Werte einsehbar. Auf diese Weise sind etwa im kicker-Korpus analog zu den Suchmöglichkeiten der Ursprungsseite präzise Suchen z. B. nach Texten über Heimspiele einer bestimmten Mannschaft in einem bestimmten Wettbewerb möglich.

Für korpusübergreifende Keywordanalysen stehen von den einzelnen Korpora sog. public frequency lists zur Verfügung; auf diese Weise können etwa die Spielberichte von kicker.de mit den Taktikanalysen von spielverlagerung.de kontrastiert werden. Als themenunspezifisches Referenzkorpus steht ein 1,8 Mio. Tokens umfassendes Korpus vom Leipziger Wortschatz-Portal zur Verfügung. Das Korpus enthält 100.000 zufällig ausgewählte deutsche Sätze aus Online-News aus dem Jahr 2015 und kann als public frequency list für Keywordanalysen herangezogen werden.

Als Einführung in die Abfragemöglichkeiten von CQPweb, das auf der Suchsyntax der IMS Open Corpus Workbench aufbaut, sei neben der offiziellen Dokumentation das Tutorial von Noah Bubenhofer empfohlen. Ein auf die hier zur Verfügung gestellten Korpora zugeschnittenes Tutorial findet sich hier.

Aufgrund von Urheberrechten (s.u.) sind die Korpora nur für wissenschaftliche Zwecke nutzbar und richten sie somit vor allem an Forschende und Lehrende.

Textquellen und Textrepräsentation

Die Texte von kicker.de, weltfussball.de und sportal.de wurden mithilfe der Tools import.io (inzwischen leider kostenpflichtig) und wget aus dem HTML-Quelltext extrahiert und in ein CWB-taugliches xml-Format transformiert. Die Texte des SID wurden bereits im xml-Format geliefert und mussten nur noch transformiert werden. Die weiteren Korpora wurden mithilfe von selbst entwickelten Scraping-Skripten sowie mithilfe der Python-Bibliothek trafilatura erhoben.

Die Texte in den Korpora enthalten so weit wie möglich nur den eigentlichen Text selbst, also (Zwischen-)Überschriften und Absätze. Weitere Textinformationen wie Datum, Autor oder bei den SID-Livetickern zur Spielminute der Tickermeldung wurden als Metadaten (xml-Attribute) gefasst. Die Metadaten wurden also durchgängig automatisiert erhoben und lediglich auf das für CQPweb nötige Format angepasst. Abbildungen und Bildunterschriften sowie Hyperlinks wurden nicht erfasst.

Die Texte wurden orthographisch unbereinigt übernommen; Tippfehler, wie sie v. a. in Livetickern häufig sind, wurden nicht korrigiert. Lediglich die vielgestaltigen Anführungszeichen (mitunter falsch z. B. als zwei aufeinanderfolgende Apostrophe gesetzt) und Bindestriche wurden durchgängig normalisiert.

Bei den Radioreportagen handelt es sich um manuell normalisierte Transkripte, die ursprünglich zu gesprächsanalytischen Zwecken erstellt wurde. Um ein automatisiertes Tagging zu ermöglichen, wurden die Transkripte in eine orthographisch und interpunktorisch schriftsprachliche Form überführt.

Zu jedem Text (mit Ausnahme der aus dem SID-Korpus) kann über die als Metadatum beigegebene URL die Originalquelle aufgerufen werden, so dass der Text in seiner ursprünglichen, oft multimodalen Textgestalt vollständig eingesehen werden kann.

Jeder Text trägt eine korpusübergreifend eindeutige Text ID, die wie folgt strukturiert ist:

{Quelle}_{Wettbewerb+Saison/Jahr}_{Textsorte}_{ID}

Folgende Siglen wurden vergeben:

  • Quelle: k (kicker.de), wfb (weltfussball.de), sid (SID), spvl (spielverlagerung.de), na (niemalsallein.de), hff (halbfeldflanke.de), sps (sportschau.de), spm (sportsmole.co.uk), fcu (fcupdate.nl), lr (liveresult.ru), ask (ARD-Schlusskonferenz), sptl (sportal.de), as (as.com), isp (isport.cz), leq (lequipe.fr), mfb (maisfutebol.pt), med (matchendirect.fr), s24 (sport24.gr), wp (sportowefakty.wp.pl), tmw (tuttomercatoweb.it)
  • Wettbewerb: BL (Bundesliga), 2BL (2. Bundesliga), DFB (DFB-Pokal), CL (Champions League), EL (Europa League), WM (Weltmeisterschaft), PL (Premier League), EM (Europameisterschaft), NT (Nationalteams), ED (Eredivisie), PLR (Premjer Liga Russia), PD (Primera Division), HET (HET Liga), L1 (Ligue 1), PLP (Primeira Liga), SLE (Superleague Ellada), Eks (Ekstraklasa), 
  • Textsorte: lt (Liveticker), spb (Spielbericht), ta (Taktikanalysen), eds (Elf des Spieltags), lr (Livereportage), rev (Einzelkritik)

Die Text IDs (z.B. „k_BL1415_spb_2600“ für einen kicker.de-Spielbericht aus der Bundesligasaison 2014/15) können bei der Zitation von Korpusbelegen gemeinsam mit einer erläuternden Notiz zur Siglenstruktur als Kurzverweis anstelle der URL genannt werden; dann müssen im Literaturverzeichnis zusätzlich die Korpora als Ganze angeführt werden. Für die Zitation wird vorgeschlagen:

Meier-Vieracker, Simon (Hg.) (2021): Korpora zur Fußballlinguistik (Release 2021-09), Professur für Angewandte Linguistik, TU Dresden, www.fussballlinguistik.de/korpora.

Zudem sollte auf folgende Publikation verwiesen werden:

Meier, Simon (2017): Korpora zur Fußballlinguistik – eine mehrsprachige Forschungsressource zur Sprache der Fußballberichterstattung. In: Zeitschrift für germanistische Linguistik 45(2), S. 345–349.

Textaufbereitung

Für die Tokenisierung und Annotation nach Wortarten und Lemmata im vrt-Format wurde der TreeTagger verwendet.

Für die deutschsprachigen Korpora wurde die standardmäßig verfügbare Paramater-Datei, die auf dem Stuttgart Tübigen Tagset (STTS) aufbaut, um ein manuell auf Grundlage der vorliegenden Daten erstelltes, themenspezifisches Lexikon ergänzt.  Um die gerade in den Livetickern häufigen Tippfehler abzufangen, wurden dabei aber nur Ausdrücke, die mehr als zweimal in einem Korpus vorkommen und im TreeTagger-Output mit <unknown> ausgegeben werden, manuell in die Grundform überführt und in das Lexikon aufgenommen.

Für die Korpora der anderen Sprachen wurden wurden die standardmäßigen Parameter-Dateien verwendet, die Tagsets sind jeweils in den Informationen zu den Korpora in der linken Leiste verlinkt.

Für den finalen Output wurde die Option no-unknown gewählt, die bei unbekannten Wörtern die Wortform als Lemma ausgibt. Bei den insbesondere in Ausdrücken wie „in der 19. Minute“ oder „(19.)“ häufig vorkommenden Ordinalzahlen wird als Lemma einheitlich @ord@, bei Kardinalzahlen @card@ eingesetzt.

Urheberrechte

Die in den Korpora enthaltenen Texte sind urheberrechtlich geschützt und unterliegen den Nutzungsbestimmungen der Anbieter. Um die Korpora für Forschungszwecke öffentlich zur Verfügung stellen zu können, wurden mit einigen Anbietern Rechtevereinbarungen getroffen. Dies ermöglicht auch die laufende Ergänzung der Korpora um jeweils neue Texte.

Gemäß §60d des Urheberrechts (Text und Data Mining für Zwecke der wissenschaftlichen Forschung) werden für die registrierten Nutzenden aber auch jene Texte für die wissenschaftliche Nutzung zur Verfügung gestellt, mit denen keine Rechtevereinbarungen getroffen werden konnten. Dies ist möglich, da  nur Textausschnitte angezeigt werden (so ist es auch in den Rechtevereinbarungen festgehalten). Ein Download der gesamten Korpora wie auch von Teilkorpora sowie der Export ganzer Texte ist nicht nicht möglich. Es können jedoch Ergebnislisten der verschiedenen Abfragemethoden (KWIC-Listen, Frequenzlisten usw.) im tsv-Format heruntergeladen werden.

Folgende Anbieter haben bislang ihre Texte ausdrücklich für wissenschaftliche Zwecke im Rahmen der Korpora zur Fußballlinguistik zur Verfügung gestellt:

Sollten die anderen Anbieter Einwände gegen die Nutzung haben, können sie sich an den Herausgeber der Korpora wenden.

Ausblick

Die Korpora zur Fußballlinguistik sind auf ständige Erweiterung angelegt. Neben der Ergänzung um die Datensätze der kommenden Spielzeiten sollen auch Texte weiterer Anbieter sowie weitere Textsorten wie Einzelkritiken aufgenommen werden. Auch Liveticker zu anderen Sportarten sind mögliche Quellen.

Ein Teil der Daten (vor allem Liveticker) ist in das Deutsche Referenzkorpus (DeReKo) des Instituts für deutsche Sprache, Mannheim eingegangen und ist dort als eigenes Korpus innerhalb des W-Archivs der geschriebenen Sprache recherchierbar.

Danksagung

Für den technischen Support bei der Einrichtung des Servers und der Installation von CQPweb danke ich Nick Hainke und Gregor Mitzka.

Für die Datenspende der Transkripte zu den Radioreportagen danke ich Leonard Brandbeck.

Weiterhin danke ich Noah Bubenhofer für die vielfältige Unterstützung in korpuslinguistischen Belangen.

Schließlich danke ich dem Fachgebiet Allgemeine Linguistik der TU Berlin, auf dessen Server die Korpora in den Jahren 2017–2020 gehostet wurden.

Nachbemerkung

Diese Korpusdokumentation wurde in Anlehnung an die Criteria for Reviewing Digital Text Collections des Instituts für Dokumentologie und Editorik verfasst. In Teilen wurde zudem die Korpusdokumetation des Text+Berg-Korpus als Vorlage verwendet.