Der Livetickergenerator beruht auf 3060 part-of-speech-annotierten Bundesliga-Livetickern von weltfussball.de (die u.a. auf bild.de publiziert werden) aus den Jahren 2006–2016. Die Füllelemente für die einzelnen Satzrahmen (erzieltes Tor, Fehlschuss, Torwartparade, Taktikbeschreibung, Spielbeschreibung, Trainerzitat und Verletzungsmeldung) wurden in CQP-basierten Abfragen erhoben und manuell bereinigt. Kein einziges Wort wurde nachträglich hinzugefügt, alles ist so in den originalen Livetickern zu finden und wird hier nur nach dem Zufallsprinzip neu kombiniert.

Das Script des Generators (mit reduzierten Füllwerten) kann hier eingesehen und für den eigenen Gebrauch heruntergeladen werden.

Die annotierten weltfussball-Liveticker sind in den Korpora zur Fußballlinguistik öffentlich zugänglich, so dass die Erhebung der Füllwerte reproduziert werden kann. Es bieten sich etwa die folgenden Suchanfragen an:

"nach"%c [pos="ADJA"][pos="NN"]

[pos="VVFIN"][pos="ART"]

[lemma="Ball|Kugel|Pille|Rund|Leder|Kunstleder|Sportgerät|Ei"][pos="ADJD"]

[word=".*schuss"]

[pos="\$\,"][lemma="aber|doch"]

[pos="KOKOM"][pos="ADJA"]?[pos="NN"]

Auf GitHub ist außerdem ein Script weltfussball_livetext.pl verfügbar, mit dem die Korpora from the scratch selbst erstellt werden können.

Ausführlichere Informationen finden sich in diesem Blogpost.