Der Livetickergenerator beruht auf 3060 part-of-speech-annotierten Bundesliga-Livetickern von kicker.de aus den Jahren 2006–2016. Die Füllelemente für die einzelnen Satzrahmen (erzieltes Tor, Fehlschuss, Torwartparade und Taktikbeschreibung) wurden in CQP-basierten Abfragen erhoben und manuell bereinigt. Kein einziges Wort wurde nachträglich hinzugefügt, alles ist so in den originalen Livetickern zu finden und wird hier nur nach dem Zufallsprinzip neu kombiniert.

Die annotierten kicker-Liveticker sind in den Korpora zur Fußballlinguistik öffentlich zugänglich, so dass die Erhebung der Füllwerte reproduziert werden kann. Es bieten sich etwa die folgenden Suchanfragen an:

„nach“%c [pos=“ADJA“][pos=“NN“]

[pos=“VVFIN“][pos=“ART“][lemma=“Ball|Kugel|Pille|Rund|Leder|Kunstleder|Sportgerät|Ei“][pos=“ADJD“]

[word=“.*schuss“]

[pos=“\$\,“][lemma=“aber|doch“]

[pos=“KOKOM“][pos=“ADJA“]?[pos=“NN“]

Der Output des Livetickergenerators wird über einen Twitterbot publiziert. Der Bot selbst ist ein einfaches python-Script, das hier beschrieben ist und über cron gesteuert wird.

Ausführlichere Informationen finden sich in diesem Blogpost.