Die Ergänzung meiner Korpora zur Fußballlinguistik um gesprochene Sprache ist ein lang gehegter Wunsch von mir. Auf meiner Festplatte habe ich schon so manches Transkript, etwa aus meinem Pressekonferenzenprojekt oder zum Doppelpass-Projekt. Aber das mündliche Fußballgenre schlechthin (und wahrscheinlich auch das am intensivsten beforschte Genre) sind natürlich die Livereportagen, im Fernsehen oder besser noch im Radio. Diese Daten hätte ich gerne bzw. würde sie gerne anderen Forschenden für deren Forschungen zur Verfügung stellen. Allein die Transkriptionsarbeit ist eine sehr zeitaufwändige Sache, und so ist es bislang bei dem Wunsch geblieben.

Unverhoffte Hilfe aus Wien

Nun aber meldete sich vor ein paar Tagen Leonard bei mir, ein, wie ich bald merke, regelmäßiger Liker meines Twitteraccounts, und vor allem seines Zeichens Student der Sprachwissenschaft an der Universität Wien. Leonard schließt gerade sein Studium mit einer Master-Arbeit zum Thema „Sequentialität und Turn-Taking in ARD-Bundesligakonferenzen im Radio“ ab und hat dafür fünf halbstündige Sequenzen aus der Hinrunde der Saison 2017/18 nach GAT-Konventionen transkribiert. Und damit, ich zitiere aus seiner Mail, von seiner „schweißtreibenden Transkriptionsarbeit vielleicht auch noch andere profitieren können“, bietet er mir die Transkripte und die zugehörigen Audiodaten zur Implementierung in meine Korpora an.

Wie cool ist das denn, denke ich mir, und frage nach: Ob die Daten zufällig mit einem Transkriptionseditor erstellt wurden. Das sind sie, und zwar mit ELAN vom MPI Nijmegen. Mit dieser Information wende ich mich an Thomas Schmidt vom IDS Mannheim, der mir die frohe Botschaft übermittelt, dass das ELAN-eigene Format mit EXMARaLDA und von dort aus auch mit FOLKER interoperabel ist – die Voraussetzungen dafür, die Transkripte mit einem integrierten Audioplayer im Netz zur Verfügung zu stellen, sind also gegeben.

Die Idee, deren Umsetzung jetzt nur noch davon abhängt, ob der WDR, der die Bundesliga-Schlusskonferenzen produziert, Nutzungsrechte für wissenschaftiche Zwecke einräumt (und für Texte von sportschau.de hat er das schon getan), ist also die: Man kann sich die Transkripte online ansehen und durch Anklicken der einzelnen Segmente sich die zugehörige Audiospur anhören. So könnten auch andere Interessierte die Daten in ihrer ursprünglichen Form für ihre eigenen Forschungsfragen nutzen. Technisch ist das dank der komfortablen html-Export-Funktion von FOLKER leicht zu machen.

Wenn es also gut läuft, lassen sich bald Perlen wie diese recherchieren:

to:::::r in WOLFSbu::rg;
jetzt KLINge::lt s;
KLINgelingeling:;
der vfl antwortet und zwar POSTwendend;
YUnus MALli::;
mit dem treffe:r zum DREI: zu EI:NS FÜ:R den vfl wolfsburg;

Und die prosodische Qualität, die für dieses Register so entscheidend ist, wäre über die Audiospur für alle sinnlich erfahrbar.

Ergänzend dazu könnten die Transkripte auch in normalisierter Form ganz parallel zu den schriftlichen Texten in pos-annotierter Form über CQPweb zur Verfügung gestellt werden. Immerhin sind es rund 25.000 Wörter, was für gesprochensprachliche Daten nicht wenig ist, und es könnten interessante Vergleiche etwa mit Livetickern angestellt werden.

So geht offene Wissenschaft!

Und einmal ganz abgesehen von den inhaltlichen und technischen Details: Ist die ganze Geschichte nicht großartig? Ein Student, der aus eigenem Antrieb seine Daten für die Nachnutzung spendet; eine Reihe von kostenlosen Tools, die es mir möglich machen, diese Datenspende mit überschaubarem Aufwand aufzubereiten und zur Verfügung zu stellen – so geht offene Wissenschaft! Bitte, lieber WDR, mach mit…