Soccer Analytics

Datenanalyse im Fußball
(Weitergeleitet von Expected Goals)

Der Begriff Soccer Analytics bezeichnet die Datenanalyse im Fußball. Dazu zählt insbesondere die Auswertung verschiedener Daten und Statistiken zur Entscheidungsfindung sowie für Vorhersagemodelle. Analysiert werden dabei vor allem Wettbewerbsspiele, aber auch sonstige Spiele oder Trainings. Der Analyseprozess basiert grundlegend auf dem KDD-Prozess.
Mit der zunehmenden Verfügbarkeit technischer Werkzeuge gewinnt die Datenanalyse zunehmend im Profi-Sport an Bedeutung und wird bereits von einigen Vereinen zur Entscheidungsfindung eingesetzt.

Grundlagen der Datenanalyse

Bearbeiten

Analoge Datensammlung

Bearbeiten

Schon vor dem weitreichenden Einsatz von Technik gab es erste Ansätze Fußballspiele zu annotieren und statistisch auszuwerten. 1950 hat Charles Reep begonnen sein eigenes System zur Annotation von Fußballspielen zu entwickeln. Insgesamt hat er so über 2.200 Spiele erfasst und für jedes dieser Spiele über 80 Stunden Zeit für die Analyse investiert. Durch seine Arbeit wurde ein wichtiger Grundstein für die spätere Entwicklung gelegt. Zudem kam er zu mehreren Erkenntnisse, welche teilweise noch heute im Fußball Anwendung finden. Die Interpretation seiner Daten führte ihn beispielsweise zu der Annahme, dass es effektiver ist, den Ball lang in Richtung gegnerisches Tor zu spielen, anstatt viele kurze Pässe zu absolvieren. Die von ihm mit Zahlen untermauerte Taktik ist bis heute viel verbreitet. Eine weitere seiner Analysen führte ihn zu einer Theorie, welche das Pressing zwar nicht begründete, es allerdings zum ersten Mal beschrieb.[1]
Durch seine Arbeit legte Reep den Grundstein für zukünftige Entwicklungen im Bereich der statistischen Analyse im Fußball.

Bilderkennung

Bearbeiten

Ein Großteil der verfügbaren Daten entsteht durch den Einsatz von Videokameras, welche das Spielgeschehen filmen. Das Filmmaterial wird dabei in Echtzeit softwareunterstützt analysiert, wodurch zahlreiche Daten und Statistiken entstehen. Während der Anfangszeit dieser Systeme in den 90er-Jahren benötigte das manuelle Auswerten des Videomaterials für ein einziges Spiel rund 4 Stunden. Dies lag daran, dass damals die Auswertung ohne Technik, sondern nur mit Stift und Papier durchgeführt wurde. In den letzten Jahren wurde dieser Prozess zunehmend optimiert, so dass es mittlerweile möglich ist, Spielstatistiken live zu erstellen. Während des Champions League Finales 2010 waren hierfür bei Opta Sports drei Mitarbeiter zuständig, welche insgesamt 2.842 Ereignisse festhielten.[2]

Ansätze, die Erfassung von Spieldaten durch Videokameras möglichst vollständig zu automatisieren, finden sich im Bereich der künstlichen Intelligenz. Ein Beispiel dafür ist ein Projekt der Ruhr-Universität Bochum, welches vom Bundesministerium für Wirtschaft und Energie gefördert wurde. Das umgesetzte Konzept besitzt relativ geringe Hardware Anforderungen (Zwei Full-HD-Kameras, ein leistungsfähiger Computer sowie die Anbindung an eine SQL-Datenbank) und ist damit einfach und kostengünstig zu installieren. Nachdem das System installiert und kalibriert wurde, können die Ereignisse automatisch durch Videoanalyse erstellt und in der Datenbank gespeichert werden. Zwei Bediener sind nur noch dafür zuständig die einzelnen Spieler zuzuweisen, da das System nur die Mannschaften, nicht aber die Spieler unterscheiden kann.[3]

Sensordaten

Bearbeiten

Eine weitere Möglichkeit, spezielle Informationen, wie die Geschwindigkeit oder Laufstrecke eines Spielers, zu erhalten ist der Einsatz von Sensoren. Diese werden am Spieler angebracht und erlauben eine deutlich exaktere Messung der Daten, als dies mit Videokameras möglich ist. Allerdings ist der Einsatz dieser Technik bisher im Profifußball bei offiziellen Spielen meist nicht erlaubt. 2015 hat die FIFA begonnen, Sensorsysteme (EPTS – Electronic Performance and Tracking Systems) zuzulassen und hat im Oktober Hersteller aufgerufen ihre Systeme vorzustellen um einen einheitlichen Standard zu finden.[4]

Ein Beispiel für ein System, welches mit Sensoren arbeitet ist das „ZXY Sports Tracking System“. Dieses wurde bereits zum Einsatz in der dänischen ersten Liga sowie Spielen der UEFA zugelassen. Hierfür müssen Spieler einen Sensorgürtel tragen, welcher Positionsdaten, Beschleunigung und den Puls misst. Ein Kompass ermöglicht es zudem die Richtung in welche ein Spieler unterwegs ist präzise zu bestimmen. Die Tatsache, dass das ZXY System nicht mit GPS, sondern funkbasiert arbeitet, führt sowohl zu Vor- als auch Nachteilen. Der größte Nachteil ist dabei die Anforderung an die Infrastruktur. Im Gegensatz zu GPS Systemen müssen entsprechende Sendemasten installiert werden, welche hohe Kosten verursachen und ortsabhängig sind. Der Vorteil gegenüber GPS Systemen liegt in der deutlich höheren Genauigkeit von Positionsdaten.[5]
Das Fraunhofer-Institut hat mit RedFIR ein ähnliches System entwickelt, welches ebenfalls über Funk arbeitet.[6]

Zufallsaspekt

Bearbeiten

Charles Reep hat bereits in den 1950ern erkannt, dass viele Ereignisse im Fußball stark von Zufällen geprägt sind. Verschiedene Untersuchungen der letzten Jahre haben seine Idee bestätigt und konkretisiert. Ein Forschungsprojekt der Universität Augsburg zeigte auf, dass 44,4 % aller Tore zufallsbedingt entstehen. Für diese Erkenntnis wurden über 2.300 Tore analysiert und hinsichtlich verschiedener Zufallsaspekte (u. a. abgefälschter Schuss, Abpraller von Pfosten oder Latte) betrachtet.[7]

Eine Studie der Universität Münster hat herausgefunden, dass das Ergebnis eines Fußballspiels zu einem signifikant hohen Teil vom Zufall beeinflusst ist. Laut ihres Ergebnisses lässt sich ein Fußballspiel mit dem mehrmaligen Werfen eines Würfels vergleichen, wobei eine 6 ein Tor bedeutet. Die Anzahl der Würfe hängt dabei von der aktuellen Fitness eines Teams sowie seiner Stärke ab.[8]

Anbieter für Fußballdaten

Bearbeiten

Zu den international bekannten Anbietern, welche Daten zu offiziellen Spielen liefern gehören unter anderem:[9]

  • Opta
  • Prozone
  • Match Analysis

Darüber hinaus sind länderspezifisch Deltatre (Italy), Infostrada (Niederlande) sowie StatDNA (USA) bekannt.[10]
Zu den Kunden zählen ein Großteil der Vereine bekannter europäischer Ligen, zahlreiche Medienunternehmen und Verbände. Viele Vereine sind bei mehreren Anbietern Kunde um eine fundierte Datenbasis zu schaffen.

Die folgende Liste zeigt einige der bekannten Anbieter sowie bekannte Kunden. (Stand Dezember 2015)

Anbieter / System Bekannte Kunden
Opta Sports[11] BBC, CNN, Eurosport, ESPN, Kicker, Sky, ZDF
13 Bundesligisten, FC Arsenal, Real Madrid
Bundesliga, DFB, Italienische Nationalmannschaft
deltatre (VIS.TRACK)[12] ARD, Axel Springer, Sky, Eurosport, ZDF
FC Arsenal, Borussia Dortmund
DFL, FIFA, UEFA, Premier League
Sportradar[13] Sport1, Kicker, The Guardian, Fox Sports Networks
Premjer-Liha, Premjer-Liga, Wales Football Association
STATS (Prozone)[14] FC Arsenal, FC Bayern München, FC Chelsea, Hamburger SV, Manchester United
Englische Nationalmannschaft, DFB, Premier League, Ligue 1
ChyronHego (TRACAB)[15] Bundesliga, Premier League, La Liga, UEFA, FIFA

Laut eigenen Angaben generiert Opta pro Spiel über 2.000 Ereignisse für 30 Wettbewerbe und bietet weniger detaillierte Daten für weltweit über 1.000 Wettbewerbe an.[16]
Im Bereich der Datenanalyse ist besonders auf dem deutschen Markt SAP gut vertreten. SAP liefert mit der Softwarelösung Sports One eine vollumfassende Lösung zum datengestützten managen eines Vereins. Dabei liegt vor allem der Aspekt der sportlichen Analyse im Fokus.[17]

Statistiken

Bearbeiten

Klassische Statistiken

Bearbeiten

Als Opta in den 90er-Jahren anfing Spielstatistiken zu erstellen waren die erfassten Daten noch sehr einfach. Damals wurden nur Pässe, Schüsse und Torwartparaden festgehalten.[2] Besonders in der medialen Aufbereitung von Fußballspielen werden zunehmend Statistiken verwendet, in der Regel mit immer fortschrittlicheren Visualisierungen.
Quantitative Statistiken werden oft zu Grunde gezogen, um taktische Maßnahmen zu begründen oder zu widerlegen.

Neue Ansätze

Bearbeiten

Nachdem lange Zeit Tor- und Schussstatistiken die mediale Berichterstattung dominiert haben, hat sich in diesem Bereich mittlerweile ein neuer Blickwinkel ergeben. Analysten haben zunehmend begonnen nicht nur die reine Anzahl der Torchancen festzuhalten, sondern auch die Qualität dieser zu betrachten. Der Gedanke hinter der xGoals-Statistik (kurz für „Expected Goals“) ist genau dieser. Im Gegensatz zur Schussgenauigkeit berücksichtigt xGoals nicht das Verhältnis von Schüssen zu Toren, sondern betrachtet vor allem die Position und die Art des Abschlusses (z. B. Kopfball nach Eckstoß).

Die genaue Berechnung der xGoal-Werte ist je nach Modell unterschiedlich, berücksichtigt jedoch meist folgende Variablen:

  • Position des Abschlusses
  • Art des Abschlusses (Schuss/Kopfball, Art der Vorlage, Aus dem Spiel/Nach Standardsituation, Elfmeter etc.)

Bei den meisten Modellen ist dabei die Position die einflussreichste Variable. Hierbei gibt es jedoch sehr unterschiedliche Detailgrade bei der Einteilung des Spielfelds in Teilgebiete. Manche Modelle arbeiten dabei nur mit 6 Zonen andere wiederum mit mehreren Dutzend.[18][19] Grundsätzlich ist die Wahrscheinlichkeit eines Tors (und damit der xGoals-Wert) für einen Schuss innerhalb des Strafraums höher, als für einen Schuss außerhalb.

Eine beispielhafte xGoals-Berechnung sieht folgendermaßen aus:[18]

  1. Startwert der Berechnung: −0,28
  2. 0,83 subtrahieren falls es sich um einen Kopfball handelt
  3. 0,65 subtrahieren falls es sich um einen Schuss nach Eckball handelt
  4. 2,54 addieren falls es sich um einen Elfmeter handelt
  5. 0,71 addieren falls es sich um einen Konter handelt
  6. 0,16 addieren falls es sich um eine Standardsituation handelt
  7. Den Wert der Schussposition abziehen (zwischen 0,0 und 2,99)

Die Torwahrscheinlichkeit (also xGoals) für einen Schuss vom Elfmeterpunkt, welcher aus einer Kontersituation entstand, lässt sich folgendermaßen berechnen:

 

Hierbei handelt es sich um die logarithmierte Chance für ein Tor, weshalb ein weiterer Rechenschritt notwendig ist:

 

Anschließend wird aus der Chance die Wahrscheinlichkeit berechnet:

 

Die Wahrscheinlichkeit, dass ein solcher Schuss zu einem Tor führt liegt also bei 34,75 %.

Nutzung im Profisport

Bearbeiten

Vereinsmannschaften

Bearbeiten

Die wohl bekanntesten Vereine hinter denen ein datengestütztes Management steckt sind der englische Premier-League-Club FC Brentford und der dänische Erstligist FC Midtjylland. Beide Vereine sind zum Großteil im Besitz von Matthew Benham.
Benham setzt sehr stark auf statistische Modelle und sogenannte Key Performance Indicator, welche schon während des Spiels dem Trainer zur Verfügung stehen. FC Midtjylland wurde bereits ein Jahr nach Benhams Einstieg dänischer Meister – zum ersten Mal seit der Gründung 1999. Auch der FC Brentford konnte von den datengestützten Entscheidungen profitieren und stieg in der Saison 2013/14 in die 2. Liga auf. Der Aufstieg in die Premier League wurde in der Folgesaison im Halbfinale der Play-Offs knapp verpasst, gelang dann aber am Ende der Saison 2020/21.
Midtjyllands Vorstandschef schätzt den Vorteil der Datenanalyse auf 5 %, was im Leistungssport bereits ein entscheidender Faktor sein kann.[20]

Sportwetten

Bearbeiten

Bereits deutlich vor den Vereinsmannschaften haben Wettanbieter begonnen, Daten zu nutzen, um profitable Wetten zu platzieren.
Im Fußball hat sich in diesem Bereich Matthew Benham einen Namen gemacht. Benham gründete 2004 das Wettunternehmen SmartOdds mit dem Fokus auf Fußballwetten. Grundlage für jegliche Wetten sind komplexe Wahrscheinlichkeitsberechnungen anhand zahlreicher Variablen. Für den englischen Profifußball wurde von SmartOdds ein Modell entwickelt, welches Spielvorhersagen für alle möglichen Spielpaarungen errechnen kann. Berücksichtigt werden von diesem Modell fast 200 Parameter.[21][22]

Predictive Analytics

Bearbeiten
 
Streudiagramm mit Regressionsgerade

Mit der umfangreichen Datenmenge ist es mittlerweile neben der Erstellung von Statistiken auch möglich vorausschauend Vorhersagen zu treffen. In der Praxis kommen hierbei diverse Ansätze aus dem Bereich Machine Learning zum Einsatz. Besonders verbreitet sind unterschiedliche Regressionsmodelle, welche den Zusammenhang zwischen einer abhängigen und mehreren unabhängigen Variablen aufzeigen.[23] Die Regressionsanalyse erfreut sich in diesem Bereich großer Beliebtheit, da sie mit Hilfe diverser Tools sehr einfach durchgeführt werden kann und in Form von Visualisierungen auf einen Blick Zusammenhänge sichtbar machen kann.
Eine ebenfalls wichtige Rolle spielt die Poisson-Verteilung, da sie aufgrund ihrer Eigenschaft (die Vorhersage seltener Ereignisse, z. B. Tore), bestens zum Fußball passt. Untersuchungen haben gezeigt, dass die Anzahl tatsächlich gefallener Tore mit ihrer Wahrscheinlichkeit nach der Poisson-Verteilung stark übereinstimmt.[24]

Die Poisson-Verteilung dient auch Wettanbietern wie SmartOdds als Grundlage für ihre Berechnungen. Das (vereinfachte) Modell von SmartOdds ermöglicht es unter der Annahme, dass die Poisson-Verteilung zutrifft, die Wahrscheinlichkeit eines Ergebnisses (x Tore für das Heimteam, y Tore für das Auswärtsteam) zu berechnen:[22]

 

Wobei   und   für die geschätzten Tore des Heim- bzw. Auswärtsteams stehen und wie folgt berechnet werden:

 
 

Dabei steht   für den Mittelwert der geschossenen Tore pro Spiel (im Fall des Modells bezogen auf die Profiligen in England).   entspricht dem Heimvorteil, der sich aus dem Verhältnis von Heimtoren zu   berechnet.   beschreibt die Offensiv- und   die Defensivstärke eines Teams, wobei i für das Heimteam und j für das Auswärtsteam steht.

Öffentliche Wahrnehmung und Kritik

Bearbeiten

Die vielen neuartigen Ansätze führen dazu, dass es zahlreiche Kritiker von Datenanalyse im Fußball gibt. Neben diesen subjektiven Meinungen gibt es aber auch objektiv wahrnehmbare Problembereiche.
Die Kritiker finden sich in unterschiedlichen Bereichen wieder. Traditionell veranlagte Trainer sind oft der Meinung, dass die Emotionalität des Spiels nicht in Daten quantifiziert werden kann. Ein Beispiel dafür ist Tim Sherwood, ehemaliger Trainer von Aston Villa und Tottenham Hotspur.[25]

Objektive Probleme der Datenanalyse finden sich vor allem im psychologischen Bereich. Der Prozess der Datenanalyse birgt bei unsauberer Durchführung die Gefahr, dass falsche Annahmen getroffen werden oder Hypothesen voreingenommen überprüft werden, mit dem Zweck diese zu bestätigen. In der Psychologie spricht man dabei von kognitiven Verzerrungen. Ein Beispiel im Fußball dafür ist die weit verbreitete Annahme, dass eine Team besonders dann anfällig für ein Gegentor ist, wenn sie kurz zuvor selbst ein Tor geschossen hat. Eine Analyse von über 100 Premier League Spielen hat allerdings gezeigt, dass genau das Gegenteil der Fall ist – Mannschaften, die ein Tor erzielt haben lassen kurz danach die wenigsten Gegentore zu.[26]
Besonders relevant sind in diesem Zusammenhang auch der Bestätigungsfehler sowie das Hot-Hand-Phänomen. Die genannten Effekte stellen alle potentielle Fehlerquellen bei der Durchführung der Datenanalyse dar.

Literatur

Bearbeiten
  • Chris Anderson, David Sally: The Numbers Game: Why Everything You Know About Football is Wrong. Penguin Books, London 2014, ISBN 978-0241963623.
  • Simon Kuper, Stefan Szymanski: Soccernomics. HarperSport, 2012, ISBN 978-0007586523.
  • Christoph Biermann: Die Fußball-Matrix: Auf der Suche nach dem perfekten Spiel. KiWi-Taschenbuch, 2010, ISBN 978-3462042535.
Bearbeiten

Einzelnachweise

Bearbeiten
  1. Vgl. Anderson, Sally, S. 13–19.
  2. a b Vgl. Anderson, Sally, S. 10
  3. Marc Schlipsing, Jan Salmen, Christian Igel: Echtzeit-Videoanalyse im Fußball. In: KI - Künstliche Intelligenz. 27, Nr. 3, 2013, S. 235–240.
  4. @1@2Vorlage:Toter Link/www.sporttechie.comFIFA Requests Player Tracking Tech Companies To Present Their Wearable Systems For Match Play Consideration (Seite nicht mehr abrufbar. Suche in Webarchiven), 14. Oktober 2015. Abgerufen am 23. November 2015
  5. Håvard D. Johansen, Svein Arne Pettersen, Pål Halvorsen, Dag Johansen: ‚‘Combining Video and Player Telemetry for Evidence-Based Decisions in Soccer’’, S. 2f
  6. RedFIR® - Fraunhofer-Institut für Integrierte Schaltungen IIS (Memento vom 15. November 2016 im Internet Archive). Abgerufen am 6. Januar 2016
  7. @1@2Vorlage:Toter Link/www.sport.uni-augsburg.deDer Zufall arbeitete deutsch-solide bei der WM – Augsburger Sportwissenschaftler fanden 41,8% Zufallstore (Seite nicht mehr abrufbar. Suche in Webarchiven). (PDF) Abgerufen am 6. Dezember 2015
  8. A. Heuer, C. Müller und O. Rubner: Soccer: is scoring goals a predictable Poissonian process?, 3. März 2014, S. 4. Abgerufen am 6. Dezember 2015
  9. Vgl. Anderson, Sally, S. 6
  10. Vgl. Anderson, Sally, S. 11
  11. Opta Sports Kunden & Partner (Memento vom 29. Dezember 2015 im Internet Archive). Abgerufen am 6. Januar 2016
  12. deltatre AG deltatre AG - Referenzen. Abgerufen am 26. November 2019
  13. Sportradar Our Partners. Abgerufen am 6. Januar 2016
  14. Prozone Testimonials (Memento vom 6. Januar 2016 im Internet Archive). Abgerufen am 6. Januar 2016
  15. ChyronHego TRACAB Optical Tracking. Abgerufen am 6. Januar 2016
  16. Covering the world of football, in the greatest detail (Memento vom 4. März 2016 im Internet Archive). Abgerufen am 23. November 2015
  17. SAP Unveils SAP Sports One Solution for Soccer. Abgerufen am 12. Dezember 2015
  18. a b Calculating Expected Goals 2.0, 8. Mai 2014. Abgerufen am 23. November 2015
  19. Premier League Projections and New Expected Goals, 19. Oktober 2015. Abgerufen am 23. November 2015
  20. Elf Dateien sollt ihr sein. Abgerufen am 12. Dezember 2015
  21. Der beste Profiwetter der Welt. Abgerufen am 12. Dezember 2015
  22. a b An introduction to football modelling at Smartodds. Abgerufen am 12. Dezember 2015
  23. Vgl. Backhaus, Klaus; Erichson, Bernd; Plinke, Wulff; Weiber, Rolf. Multivariate Analysemethoden: Eine anwendungsorientierte Einführung. Berlin, Heidelberg: Springer-Verlag, 2013, S. XXII
  24. Holger Dambeck: Ist Fußball ein Glücksspiel?. In: Spektrum der Wissenschaft. 7. Juni 2010, S. 68–70.
  25. Tim Sherwood: It's not seen as sexy to sign players from lower leagues, 30. November 2015. Abgerufen am 3. Dezember 2015
  26. Vgl. Anderson, Sally, S. 22ff