Vor einiger Zeit meldete sich Klaas Reese bei mir, seines Zeichens Moderator bei DLF Sport, Blogger, GIF-Kolumnist und vor allem Podcaster: Zusammen mit Alex Feuerherdt betreibt Klaas den sensationellen Schiedsrichter Podcast Collinas Erben, wo mit allergrößter Sachkunde und Leidenschaft Aufgaben, Leistungen, Verdienste und Probleme der Fußballschiedsrichter*innen besprochen werden.

Klaas regte an, die Schiedsrichterbewertungen, die der kicker bei jedem Bundesligaspiel vornimmt, auszuwerten, und weil fussballlinguistik.de gerne auch Auftragsforschung betreibt, habe ich mich rangemacht und alle auf kicker.de verfügbaren Schiedsrichterbewertungen runtergeladen: 7343 Stück aus den Saisons 1996–2020, jeweils mit einer Note zwischen 1 und 6 und einem ganz kurzen Bewertungstext im Gesamtumfang von 181’389 Wörtern.

Mit dem Datensatz lassen sich einige schöne Auswertungen machen: Zum einen kann man mit den Noten rechnen, zum anderen kann man eben diese Noten als Metadaten für korpuslinguistische Auswertungen verwenden, um etwas über typische Formulierungen bei der Bewertung von Schiedsrichterleistungen zu erfahren. Beides habe ich gemacht und möchte hier einige Ergebnisse präsentieren.

The quantified referee

Der Notendurchschnitt liegt bei 3,22, es wird also insgesamt recht hart bewertet. Allerdings zeigt die Notenverteilung, dass die Note 2 am häufigsten vergeben wurde – und insgesamt scheinen die Redakteure eine Neigung zu ganzen Noten zu haben. Zählt man dagegen die Wörter aus (aus Darstellungsgründen sind die Werte normalisiert), entfällt auf die Note 4,0 fast ebenso viel Text – ein Hinweis darauf, dass es aufwändiger ist, eine schlechte Note zu rechtfertigen als eine gute…

Um diesem Hinweis weiter nachzugehen, habe ich auch ausgerechnet, wie lang die Texte der einzelnen Noten im Schnitt sind. Das Ergebnis lässt sich hübsch visualisieren und kann hier eingesehen werden. Man sieht, dass die Texte für die Note 2,0 am kürzesten sind, die für die 5,5 und 6,0 am längsten. Das ist wohl das Schicksal der Schiedsrichter: Wenn sie Ihre Arbeit gut machen, wird am wenigsten über sie gesprochen. Wenn sie überhaupt in den Fokus rücken, dann meist zum Zwecke der Kritik. Damit folgen die Schiedsrichterbewertungen aber auch einer aus der Gesprächsanalyse als „preference organisation“ bekannten Tendenz: Kritische und potenziell verletzende Äußerungen sind dispräferiert und müssen mit mehr Begründungsaufwand formuliert werden als lobende Äußerungen. Ein „Gut gemacht!“ ist schnell gesagt und reicht auch aus; ein „Eigentlich schon ganz gut, aber…“ dauert eben länger (Hutchby/Wooffitt 2008: 46–49).

Wer ist der beste Schiedsrichter?

Wie aber sehen die Notendurchschnitte der einzelnen Schiedsrichter aus? Wer ist – in den Augen des kicker– der beste Schiedsrichter im hier untersuchten Zeitraum? Die folgende (interaktiv sortierbare) Tabelle zeigt das Ergebnis. Die rechte Spalte zeigt dabei an, wie viele Spiele in die Auswertung eingegangen sind. So haben die beiden Top-Platzierten (noch) eher wenige Spiele gepfiffen, und dass sie so gute Bewertungen davon getragen haben, könnte auch viel mit Glück zu tun haben.

Unter den Schiedsrichtern, die auf eine lange Karriere zurückblicken können, erweisen sich also Hellmut Krug und Markus Merk als die Besten ihres Fachs. Umgekehrt können Hermann Albrecht und Uwe Kemmling in ihrem langjährigen Mittel als eher mittelmäßig gelten.

Um es aber statistisch ganz genau zu machen und die oben erwähnten Möglichkeit des Zufalls ausschließen zu können, habe ich auch das sogenannte Konfidenzintervall für die einzelnen Schiedsrichter berechnet (ich danke Sascha Wolfer für die sachkundige Unterstützung bei der Berechnung). Der Plot ist hier einsehbar und zeigt, ob die Durchschnittsnote eines Schiedsrichters tatsächlich signifikant über dem Gesamtdurchschnitt liegt: Wenn das obere Ende des Fehlerbalkens die Mittelwertlinie nicht schneidet, darf man es als Indiz für einen signifikanten Unterschied deuten. Wirklich klar besser als der Rest sind demnach nur Hellmut Krug und Wolfgang Stark, aber auch Sven Jablonski ist auf dem besten Weg; dagegen bestätigt sich die Unterdurchschnittlichkeit von Hermann Albrecht. Und noch ein Detail: Der durchschnittlichste aller Schiedsrichter, also der, der sich mit der geringsten Streuung um den Mittelwert herum bewegt, ist Herbert Fandel.

Wo sind die Schiedsrichter am besten?

Auch für andere Metadaten lassen sich Durchschnittswerte berechnen, z.B. für die Spielorte bzw. die jeweiligen Heimteams. Man könnte ja mal vermuten, dass sich die Schiedsrichter bei Bayern München besonders viel Mühe geben. Dem ist nicht so, aber trotzdem ist die Auswertung ganz interessant:

Das Freiburger Dreisamstadion ist offenbar ein schiedsrichterfreundlicher Ort. Liegt möglicherweise am guten Wetter in Südbaden. Und besonders ungemütlich ist es am Böllenfalltor in Darmstadt, aber das mag bei nur zwei Saisons Zufall sein. Hingegen hat sich das Müngersdorfer Stadion in 255 Heimspielen des 1. FC Köln als schwieriges Pflaster erwiesen. Auch hier ebnet die Berechnung des Konfidenzintervalls vieles ein, etwa die Spitzenstellung von RB Leipzig. Dafür bestätigt sich die Überdurchschnittlichkeit der Schiedsrichterleistungen in Freiburg, und in Köln und Bielefeld haben sie es signifikant schwerer als an anderen Spielstätten. Woran das alles liegen mag, überlasse ich der geneigten Leser*innenschaft zur Spekulation. Ich würde ja vermuten, dass sich an Stätten des ewigen Abstiegskampfes mehr Regelwidrigkeiten ereignen und sich mithin mehr potenzielle Fehlerquellen bei Schiedsrichterentscheidungen auftun.

Schließlich habe ich noch nachgesehen, wie sich der Notendurchschnitt in der Zeit entwickelt (klick hier für die größere Auflösung):

Ein ganz erstaunliches Ergebnis, denn nachdem es über Jahre kaum nennenswerte Schwankungen gab, gibt es einen klaren Sprung zur Saison 2017/18, in der – ja tatsächlich – der VAR eingeführt wurde. Es wäre aber wohl zu kurz gegriffen zu behaupten, dass der VAR die Schiedsrichterleistungen wirklich besser macht. Plausibler scheint mir die Erklärung, dass sich die Kritik jetzt eben auf den Videobeweis richtet und die Schiedsrichter auf dem Platz oftmals selbst Betroffene von Fehlentscheidungen sind. Und das spiegelt sich dann auch in den Noten wieder.

Was ein guter Schiedsrichter tun muss

Wie schon angedeutet, lassen sich die Noten auch als Metadaten für die Untersuchung der kurzen ausformulierten Bewertungen verwenden. Das geht so: Für jede Note bilde ich ein Subkorpus mit jeweils allen Texten in lemmatisierter, also auf die Grundform der einzelnen Wörter zurückgeführter Form. Jedes Subkorpus kontrastiere ich dann mit dem gesamten Korpus und errechne in einer sogenannten Keyword-Analyse jene Wörter, die für die jeweilige Note signifikant häufig und deshalb besonders typisch sind. So erhalte ich gewissermaßen die sprachlichen Grundzutaten einer Bewertung etwa der Note 2.

Für jede Note formuliere ich im Folgenden einen kurzen stereotypen Text über eine typische Schiedsrichterleistung, die mit dieser Note bewertet würde. Oder anders herum ausgedrückt: Ich formuliere einen stereotypen Text, der die Vergabe der jeweiligen Note begründen kann. Alle signifikanten Ausdrücke (p < 0.001) sind fett gedruckt:

1,0: Herausragende Leistung, lag bei allen kniffligen Entscheidungen jederzeit richtig, absolut fehlerfrei, gute Körpersprache

1,5: Nahezu fehlerfrei, souveräne Leistung, ruhig und unaufgeregt, erkannte die Schwalben, lag bei fast allen Entscheidungen richtig

2,0: Souveräner Leiter einer Partie ohne knifflige Situationen, umsichtig und angenehm zurückhaltend, wohltuend unauffällig, hatte das Spiel im Griff, mit klarer Linie, stets auf Ballhöhe, mit Übersicht, ließ viel laufen, lag bei persönlichen Strafen richtig, fällte vertretbare Entscheidungen

2,5: nur wenige Fehler, insgesamt souverän und sicher, allerdings eine faire Partieohne Herausforderungen

3,0: einige kleine Probleme, aber insgesamt solide Leistung ohne große Fehler

3,5: Mitunter kleinlich, einige Fehler schmälerten den insgesamt ordentlichen Gesamteindruck

4,0: mal kleinlich, mal großzügig bei der Beurteilungvon Zweikämpfen, übersah ein Foul von XY, viele kleine, aber nicht spielentscheidende Fehler

4,5: falsche Abseitsentscheidung (15.), hätte für das Foul von XY rote/gelbe Karte geben müssen

5,0: mit eklatanten Fehlern, verweigerte nach Foul von XY den Elfmeter, übersah ein Handspiel, hätte zudem wegen Notbremse Rot geben müssen, versagte einem regulären Tor zu Unrecht die Anerkennung

5,5: schwache Leistung, zwei gravierende Fehler, verweigerte einen klaren Elfmeter, zudem gelbe Karte wegen angeblicher Schwalbe

6,0: katastrophale Vorstellung, völlig überfordert, krasse Fehlentscheidungen, benachteiligte Mannschaft XY gleich mehrfach

Was fängt man mit diesen Befunden an? Zum einen sind sie interessant, da sie, wie dies Arendt/Schäfer (2015: 104) für Bewertungen in der Wissenschaft formulieren, „Hinweise auf implizit geltende Standards liefern, indem sie explizit artikulierte, implizit präsupponierte Normen und angereicherte Erwartungen herauspräparier[en]“. M.a.W. kann man herauslesen, wie ein guter Schiedsrichter zu sein hat und was er tun muss. Am schönsten finde ich hierbei die Formulierung angenehm unauffällig, aber auch Übersicht und eine klare Linie sind wertgeschätzte Attribute.

Zum anderen ist an den Texten gerade die stufenweise Skalierung interessant (Meier 2019). Sozusagen abweichend vom Ideal des absolut fehlerfreien Spiels kommen immer mehr Dinge hinzu, die zu Abzügen führen. Bei einer 1,5 ist der Schiedsrichter nur noch nahezu fehlerfrei, bei einer 3,0 macht er zwar Fehler, aber keine großen, bei einer 4,0 zwar viele, aber keine spielentscheidenden Fehler. Auch die adversativen Konnektoren wie aber und allerdings fallen für die Noten 2,5 und 3,0 auf. Vieles war gut, aber eben auch manches nicht. Die für die Note 4,0 typische Formulierung mal … mal funktioniert ganz ähnlich. Bei der mangelhaften Note 5,0 hingegen finden wir den additiven Konnektor zudem, der gleich zwei (oder auch drei) Negativbewertungen miteinander verknüpft. Ab der Note 4,5 abwärts finden wir zudem oft die Formulierung hätte müssen, die besonders deutlich die Abweichung vom Erwartbaren zum Ausdruck bringt. Aufschlussreich ist auch das Detail, dass bei der 4,5 eine genaue Minutenangabe signifikant ist. Fehlentscheidungen, die so dimensioniert sind, dass sie sich mit einer Minutenangabe genau benennen lassen, fallen eben mehr ins Gewicht als viele kleine, wie sie noch bei einer 4,0 oft genannt werden.

Schließlich kann man natürlich für ausgesuchte Ausdrücke die Vorkommenshäufigkeiten bei den einzelnen Noten ermitteln. Das kann man ganz hübsch als Kurven darstellen (zu kurz kommen hier natürlich Kontexteffekte wie Negationen):

Erwartungsgemäß zeigt die Kurve für souverän bei schlechten Noten nach unten. Man sieht aber auch, dass das Abseits in allen Notenbereichen erwähnt wird, am häufigsten aber bei der Note 5,5. Ein Blick in die Daten aber zeigt, dass bei guten Noten eben Abseitsstellungen erkannt, bei schlechten dagegen übersehen werden. Es bräuchte also noch feiner justierte Auswertungsmethoden. Aber das mache ich dann in einem anderen Blogpost.

VAR noch was?

Schließlich noch ein letzter Punkt, auch wenn mir hierfür eigentlich zu wenig Daten vorliegen. Der „Videobeweis“ oder „Videoschiedsrichter“ wird bei den schlechten Noten tendenziell häufiger erwähnt. Typische Verwendungen sind etwa „hätte sich nicht nur auf den Videoassistenten verlassen dürfen“. Aber alles in allem ist es undurchsichtig, welche Rolle der Videoassistent bei der Benotung überhaupt spielt: Wird seine Leistung mitbewertet? Oder geht es um den Umgang des Feldschiedsrichters mit dem Videoschiedsrichter? Mal sehen, was die kommenden Spielzeiten bringen werden.

Datensatz

Der Datensatz mit Ausnahme der Bewertungstexte ist hier im tsv-Format verfügbar.

Literatur

Arendt, Birte/Schäfer, Pavla (2015): Bewertungen im Wissenschaftsdiskurs. Eine Analyse von Review-Kommentaren als Aushandlungspraxis normativer Erwartungen. In: LiLi 177, S. 104–125.

Hutchby, Ian/Wooffitt, Robin (2008): Conversation analysis. 2nd ed. Cambridge/Malden: Polity.

Meier, Simon (2019): Einzelkritiken in der Fußballberichterstattung. Evaluativer Sprachgebrauch aus korpuspragmatischer Sicht. In: Muttersprache 129, S. 1–23.