Korpusdokumentation

Korpora zur Fußballlinguistik – Release 2024-04

Die Korpora zur Fußballlinguistik enthalten internetbasierte Texte aus dem thematischen Bereich der Fußballberichterstattung in verschiedenen europäischen Sprachen in vollständig annotierter Form (part-of-speech und Lemmata) und werden über das webbasierte Tool CQPweb öffentlich zugänglich gemacht. Das Release 2024-04 enthält die folgenden Texte in den Sprachen deutsch, englisch, niederländisch, französisch, spanisch, italienisch, portugiesisch, norwegisch, polnisch, tschechisch, russisch, ungarisch und griechisch:

5325 Liveticker und 5329 Spielberichte aus den Bundesligasaisons der Männer und Frauen 2006–2023 von kicker.de,
9246 Liveticker zu den Wettbewerben Bundesliga, DFB-Pokal, Champions League, Weltmeisterschaft, Europameisterschaft des Zeitraums 2006–2016 von weltfussball.de (sie werden insbesondere auf sportbild.de republiziert),
1170 Liveticker des SID Sport-Informations-Dienstes zu den Wettbewerben 1. und 2. Bundesliga, DFB-Pokal, Champions League und Europmeisterschaft des Zeitraums 2010–2016,
1993 Liveticker des SID Sport-Informations-Dienstes verschiedener Wettbewerbe aus dem Zeitraum 2017–2020.
537 Liveticker von nzz.ch zur Schweizer Super League aus den Jahren 2015–2018,
2962 Spielanalysen des Taktikblogs spielverlagerung.de aus dem Zeitraum 2011–2021,
290 Spielanalysen der vereinsnahen Taktikblogs halbfeldflanke.de (Schalke 04) und niemalsallein.de (Hannover 96),
1158 Spielerkritiken aus der Rubrik „Elf des Spieltags“ zu 105 Spieltagen des Zeitraums 2015–2018 von sportschau.de,
29.570 Einzelkritiken von sportal.de aus dem Zeitraum 2012–2016,
2702 Liveticker und Spielberichte der Primera Division aus dem Zeitraum 2013–2017 von as.com (spanisch).
1530 Liveticker und 1727 Spielberichte aus den Premier League-Saisons 2012-2017 von sportsmole.co.uk (englischsprachig),
1142 Taktikanalysen von zonalmarking.net (englisch),
2476 Liveticker aus der Eredivisie und anderen Wettbewerben des Zeitraum 2011–2018 von fcupdate.nl (niederländisch),
3066 Liveticker der Premjer Liga, Champions League und Weltmeisterschaft aus dem Zeitraum 2011–2018 von liveresult.ru (russisch).
960 Liveticker der HET-Liga aus dem Zeitraum 2014–2018 von isport.cz (tschechisch).
1421 Liveticker der Ekstraklasa aus dem Zeitraum 2016–2021 von sportowefakty.wp.pl (polnisch)
1247 Liveticker der Ligue 1 aus dem Zeitraum 2013–2017 von lequipe.fr (französisch).
1469 Liveticker der Ligue 1 aus dem Zeitraum 2013–2017 von matchendirect.fr (französisch).
687 Liveticker der Primeira Liga aus dem Zeitraum 2002–2018 von maisfutebol.pt (portugiesisch).
413 Liveticker der Superleague Ellada aus dem Zeitraum vor 2018 von sport24.gr (griechisch).
3080 Liveticker zu verschiedenen Wettbewerben aus dem Zeitraum 2013–2021 von tuttomercatoweb.it (italienisch).
76 Liveticker und 78 Spielberichte zur Nemzeti Bajnokság aus dem Jahr 2021 von nemzetisport.hu (ungarisch)
980 LIveticker zu Eliteserien aus dem Zeitraum 2017–2020 von vglive.no (norwegisch)
5 Verschriftlichungen von je halbstündigen Radioreportagen der ARD-Schlusskonferenz aus der Bundesliga-Hinrunde 2017 mit insgesamt 203 einzelnen Beiträgen.

Nach der Tokenisierung umfassen die Korpora derzeit rund 94 Mio. Tokens, die sich wie folgt verteilen:

	Tokens	Types
kicker.de – Liveticker und Spielberichte	11.661.402	86.683
weltfussball.de – Liveticker	23.069.283	168.484
SID – Liveticker (2010–16)	4.155.414	55.246
SID – Liveticker (2017–20)	4.770.668	53.052
NZZ – Liveticker	883,263	21.506
spielverlagerung.de – Taktikanalysen	5.102.902	106.399
Taktikblogs diverse	498.264	26.487
sportschau.de – Elf des Spieltags	69.624	7.159
sportal.de – Einzelkritiken	1.475.256	27.697
sportsmole.co.uk – Liveticker und Spielberichte	6.529.955	30.457
zonalmarking.net – Taktikanalysen	1.327.220	18.269
fcupdate.nl – Liveticker	4.706.975	37.557
liveresult.ru – Liveticker	6.573.660	85.934
sportowefakty.wp.pl – Liveticker	1.512.280	32.232
as.com – Liveticker und Spielberichte	4.106.134	48.353
isport.cz – Liveticker	2.366.568	46.461
lequipe.fr – Liveticker	2.730.803	18.243
matchendirect.fr – Liveticker	3.148.723	22.420
maisfutebol.pt – Liveticker	998.581	20.069
sport24.gr – Liveticker	593.187	22.305
tuttomercatoweb.it – Liveticker	5.505.344	45.960
nemzetisport.hu – Liveticker und Spielberichte	226.426	21.208
vglive.no – Liveticker	1.823.444	28.642
ARD-Schlusskonferenz – Radioreportagen	31.992	3.799

Konzeption und Nutzungsmöglichkeiten

Die Korpora von kicker.de, fussballlinguistik.de, sportal.de und sportsmole.co.uk decken die erfassten Zeiträume und Wettbewerbe vollständig ab (soweit die Artikel noch verfügbar sind) und eignen sich deshalb auch für diachrone Analysen. Im SID-Korpus (2010–2016) sind die Saisons 2014–16 der 1. und 2. Bundesliga sowie die Europameisterschaften 2012 und 2016 lückenlos erfasst, die übrigen Wettbewerbe sind in Auswahl abgedeckt. Das zweite SID-Korpus (2017–2020) enthält Liveticker zu Partien verschiedener Wettbewerbe. Die Korpora in den übrigen Sprachen umfassen zwar auch zumeist größere Zeiträume, es kann jedoch nicht garantiert werden, dass alle Saisons vollständig erfasst sind.

Wichtige Kriterien für die Auswahl der Quellen waren neben der Reichweite der Medien (der Fokus liegt auf nicht vereinsgebundenen Anbietern mit hohen Marktanteilen) auch technische Aspekte (nur html-basierte Seiten eignen für die hier angewendeten Methoden des automatisierten Downloads).

Gleichwohl dokumentieren die Korpora schon jetzt umfassend und repräsentativ den Schriftsprachgebrauch in einer eng umgrenzten thematischen und medialen Domäne, der internetbasierten Fußballberichterstattung. Insbesondere die in vielerlei Hinsicht einzigartige Textsorte Liveticker ist damit erstmals in größerem Umfang für korpuslinguistische Zwecke dokumentiert. Neben morphologischen und lexikographischen Fragestellungen zum domänentypischen Wortschatz (auch in diachroner Perspektive) und Fragestellungen zur textsortenbezogenen Phraseologie können dank der verfügbaren Annotationen auch Fragestellungen zu syntaktischen Mustern bearbeitet werden. Dabei sind auch sprachvergleichende Analysen möglich. Die Zugangssoftware CQPweb bietet zudem vielfache Möglichkeiten der statistischen Auswertung der Daten.

Neben allgemeinen, quantitativen wie qualitativen linguistischen Fragestellung zu internetbasiertem Schriftsprachgebrauch bieten sich die Korpora insbesondere auch für spezifischere Fragen zur Sport- und Fußballsprache an, wie sie auch im öffentlichen und journalistischen Fußballdiskurs häufig gestellt werden. Mit Blick auf die gesellschaftliche Rolle des mediatisierten Fußballs als Massenkulturphänomen können die Korpora auch für kulturanalytische Fragestellungen herangezogen werden.

In den einzelnen Korpora sind zu jedem Text Metadaten unterschiedlichen Umfangs mit Angaben etwa zu Jahr, Wettbewerb, Begegnung und URL der Originalquelle erfasst, die für eingeschränkte Suchen sowie zur Erstellung von Subkorpora zur Verfügung stehen. Die jeweils verfügbaren Metadatenkategorien können in CQPweb unter „Corpus info“ eingesehen werden, über die „Restricted query“ sind die jeweils zur Auswahl stehenden Werte einsehbar. Auf diese Weise sind etwa im kicker-Korpus analog zu den Suchmöglichkeiten der Ursprungsseite präzise Suchen z. B. nach Texten über Heimspiele einer bestimmten Mannschaft in einem bestimmten Wettbewerb möglich.

Für korpusübergreifende Keywordanalysen stehen von den einzelnen Korpora sog. public frequency lists zur Verfügung; auf diese Weise können etwa die Spielberichte von kicker.de mit den Taktikanalysen von spielverlagerung.de kontrastiert werden. Als themenunspezifisches Referenzkorpus steht ein 1,8 Mio. Tokens umfassendes Korpus vom Leipziger Wortschatz-Portal zur Verfügung. Das Korpus enthält 100.000 zufällig ausgewählte deutsche Sätze aus Online-News aus dem Jahr 2015 und kann als public frequency list für Keywordanalysen herangezogen werden.

Als Einführung in die Abfragemöglichkeiten von CQPweb, das auf der Suchsyntax der IMS Open Corpus Workbench aufbaut, sei neben der offiziellen Dokumentation das Tutorial von Noah Bubenhofer empfohlen. Ein auf die hier zur Verfügung gestellten Korpora zugeschnittenes Tutorial findet sich hier.

Aufgrund von Urheberrechten (s.u.) sind die Korpora nur für wissenschaftliche Zwecke nutzbar und richten sie somit vor allem an Forschende und Lehrende.

Textquellen und Textrepräsentation

Die Texte von sportal.de wurden mithilfe der Tools import.io (inzwischen leider kostenpflichtig) und wget aus dem HTML-Quelltext extrahiert und in ein CWB-taugliches xml-Format transformiert. Die Texte des SID wurden bereits im xml-Format geliefert und mussten nur noch transformiert werden. Die weiteren Korpora wurden mithilfe von selbst entwickelten Scraping-Skripten sowie mithilfe der Python-Bibliothek trafilatura erhoben.

Die Texte in den Korpora enthalten so weit wie möglich nur den eigentlichen Text selbst, also (Zwischen-)Überschriften und Absätze. Weitere Textinformationen wie Datum, Autor oder bei den SID-Livetickern zur Spielminute der Tickermeldung wurden als Metadaten (xml-Attribute) gefasst. Die Metadaten wurden also durchgängig automatisiert erhoben und lediglich auf das für CQPweb nötige Format angepasst. Abbildungen und Bildunterschriften sowie Hyperlinks wurden nicht erfasst.

Die Texte wurden orthographisch unbereinigt übernommen; Tippfehler, wie sie v. a. in Livetickern häufig sind, wurden nicht korrigiert. Lediglich die vielgestaltigen Anführungszeichen (mitunter falsch z. B. als zwei aufeinanderfolgende Apostrophe gesetzt) und Bindestriche wurden durchgängig normalisiert.

Bei den Radioreportagen handelt es sich um manuell normalisierte Transkripte, die ursprünglich zu gesprächsanalytischen Zwecken erstellt wurde. Um ein automatisiertes Tagging zu ermöglichen, wurden die Transkripte in eine orthographisch und interpunktorisch schriftsprachliche Form überführt.

Zu jedem Text (mit Ausnahme der aus dem SID-Korpus) kann über die als Metadatum beigegebene URL die Originalquelle aufgerufen werden, so dass der Text in seiner ursprünglichen, oft multimodalen Textgestalt vollständig eingesehen werden kann.

Jeder Text trägt eine korpusübergreifend eindeutige Text ID, die wie folgt strukturiert ist:

{Quelle}_{Wettbewerb+Saison/Jahr}_{Textsorte}_{ID}

Folgende Siglen wurden vergeben:

Quelle: k (kicker.de), wfb (weltfussball.de), sid (SID), spvl (spielverlagerung.de), na (niemalsallein.de), hff (halbfeldflanke.de), sps (sportschau.de), spm (sportsmole.co.uk), fcu (fcupdate.nl), lr (liveresult.ru), ask (ARD-Schlusskonferenz), sptl (sportal.de), as (as.com), isp (isport.cz), leq (lequipe.fr), mfb (maisfutebol.pt), med (matchendirect.fr), s24 (sport24.gr), wp (sportowefakty.wp.pl), tmw (tuttomercatoweb.it), nmz (nemzetisport.hu), vgl (vglive.no), zm (zonalmarking.net)
Wettbewerb: BL (Bundesliga), 2BL (2. Bundesliga), DFB (DFB-Pokal), FBL (Frauen-Bundesliga), CL (Champions League), EL (Europa League), WM (Weltmeisterschaft), PL (Premier League), EM (Europameisterschaft), FWM (Frauen-Weltmeisterschaft), FEM (Frauen-Europameisterschaft), NT (Nationalteams), ED (Eredivisie), PLR (Premjer Liga Russia), PD (Primera Division), HET (HET Liga), L1 (Ligue 1), PLP (Primeira Liga), SLE (Superleague Ellada), Eks (Ekstraklasa), NBI (Nemzeti Bajnokság), ES (Eliteserien)
Textsorte: lt (Liveticker), mr (Match Report), ta (Taktikanalysen), eds (Elf des Spieltags), lr (Livereportage), rev (Einzelkritik)

Die Text IDs (z.B. „k_BL1415_spb_2600“ für einen kicker.de-Spielbericht aus der Bundesligasaison 2014/15) können bei der Zitation von Korpusbelegen gemeinsam mit einer erläuternden Notiz zur Siglenstruktur als Kurzverweis anstelle der URL genannt werden; dann müssen im Literaturverzeichnis zusätzlich die Korpora als Ganze angeführt werden. Für die Zitation wird vorgeschlagen:

Meier-Vieracker, Simon (Hg.) (2024): Korpora zur Fußballlinguistik (Release 2024-04), Professur für Angewandte Linguistik, TU Dresden, www.fussballlinguistik.de/korpora.

Zudem sollte auf folgende Publikation verwiesen werden:

Meier, Simon (2017): Korpora zur Fußballlinguistik – eine mehrsprachige Forschungsressource zur Sprache der Fußballberichterstattung. In: Zeitschrift für germanistische Linguistik 45(2), S. 345–349.

Textaufbereitung

Für die Tokenisierung und Annotation nach Wortarten und Lemmata im vrt-Format wurde der TreeTagger verwendet.

Für die deutschsprachigen Korpora wurde die standardmäßig verfügbare Paramater-Datei, die auf dem Stuttgart Tübigen Tagset (STTS) aufbaut, um ein manuell auf Grundlage der vorliegenden Daten erstelltes, themenspezifisches Lexikon ergänzt. Um die gerade in den Livetickern häufigen Tippfehler abzufangen, wurden dabei aber nur Ausdrücke, die mehr als zweimal in einem Korpus vorkommen und im TreeTagger-Output mit <unknown> ausgegeben werden, manuell in die Grundform überführt und in das Lexikon aufgenommen.

Für die Korpora der anderen Sprachen wurden wurden die standardmäßigen Parameter-Dateien verwendet, die Tagsets sind jeweils in den Informationen zu den Korpora in der linken Leiste verlinkt.

Für den finalen Output wurde die Option no-unknown gewählt, die bei unbekannten Wörtern die Wortform als Lemma ausgibt. Bei den insbesondere in Ausdrücken wie „in der 19. Minute“ oder „(19.)“ häufig vorkommenden Ordinalzahlen wird als Lemma einheitlich @ord@, bei Kardinalzahlen @card@ eingesetzt.

Die Kicker- und Weltfußball-Korpora wurden zudem mit Hilfe des Python-Moduls sentence-splitter 1.4 nach Sätzen segmentiert.

Urheberrechte

Die in den Korpora enthaltenen Texte sind urheberrechtlich geschützt und unterliegen den Nutzungsbestimmungen der Anbieter. Um die Korpora für Forschungszwecke öffentlich zur Verfügung stellen zu können, wurden mit einigen Anbietern Rechtevereinbarungen getroffen. Dies ermöglicht auch die laufende Ergänzung der Korpora um jeweils neue Texte.

Gemäß §60d des Urheberrechts (Text und Data Mining für Zwecke der wissenschaftlichen Forschung) werden für die registrierten Nutzenden aber auch jene Texte für die wissenschaftliche Nutzung zur Verfügung gestellt, mit denen keine Rechtevereinbarungen getroffen werden konnten. Dies ist möglich, da nur Textausschnitte angezeigt werden (so ist es auch in den Rechtevereinbarungen festgehalten). Ein Download der gesamten Korpora wie auch von Teilkorpora sowie der Export ganzer Texte ist nicht nicht möglich. Es können jedoch Ergebnislisten der verschiedenen Abfragemethoden (KWIC-Listen, Frequenzlisten usw.) im tsv-Format heruntergeladen werden.

Folgende Anbieter haben bislang ihre Texte ausdrücklich für wissenschaftliche Zwecke im Rahmen der Korpora zur Fußballlinguistik zur Verfügung gestellt:

- - Olympia-Verlag GmbH (kicker.de)
  - HEIM:SPIEL Medien GmbH & Co. KG (weltfussball.de)
  - SID Sport-Informations-Dienst GmbH
  - Neue Zürcher Zeitung (nzz.ch)
  - Maric, Rieke, Escher & Rafelt Spielverlagerung GbR (spielverlagerung.de)
  - halbfeldflanke.de
  - niemalsallein.de
  - Sports Mole Ltd. (sportsmole.co.uk)
  - Westdeutscher Rundfunk (sportschau.de)
  - SportUpdate B.V. (fcupdate.nl)
  - liveresult.ru

Sollten die anderen Anbieter Einwände gegen die Nutzung haben, können sie sich an den Herausgeber der Korpora wenden.

Ausblick

Die Korpora zur Fußballlinguistik sind auf ständige Erweiterung angelegt. Neben der Ergänzung um die Datensätze der kommenden Spielzeiten sollen auch Texte weiterer Anbieter sowie weitere Textsorten wie Einzelkritiken aufgenommen werden. Auch Liveticker zu anderen Sportarten sind mögliche Quellen.

Ein Teil der Daten (vor allem Liveticker) ist in das Deutsche Referenzkorpus (DeReKo) des Instituts für deutsche Sprache, Mannheim eingegangen und ist dort als eigenes Korpus innerhalb des W-Archivs der geschriebenen Sprache recherchierbar.

Danksagung

Für den technischen Support bei der Einrichtung des Servers und der Installation von CQPweb danke ich Nick Hainke und Gregor Mitzka.

Für die Datenspende der Transkripte zu den Radioreportagen danke ich Leonard Brandbeck.

Weiterhin danke ich Noah Bubenhofer für die vielfältige Unterstützung in korpuslinguistischen Belangen.

Schließlich danke ich dem Fachgebiet Allgemeine Linguistik der TU Berlin, auf dessen Server die Korpora in den Jahren 2017–2020 gehostet wurden.

Nachbemerkung

Diese Korpusdokumentation wurde in Anlehnung an die Criteria for Reviewing Digital Text Collections des Instituts für Dokumentologie und Editorik verfasst. In Teilen wurde zudem die Korpusdokumetation des Text+Berg-Korpus als Vorlage verwendet.