Analytics

read the game: Von „Big Data“ zu „Great Story“

read the game: Von "Big Data" zu "Great Story"
geschrieben von Karsten Görsdorf

In Tagen wie diesen, wo Naturkatastrophen, atomare Drohgebärden und angebliche Alternative Politik am rechten Rand der Gesellschaft die Nachrichten bestimmen, bin ich im Konflikt mit mir selbst, wenn ich über mein berufliches Tun spreche oder schreibe. Wir retten keine Menschen, wir haben kein politisches Mandat. Dennoch arbeiten wir in einer der größten globalen Entertainment-Branchen: dem Sportspiel. Dort produzieren wir aber nichts Originäres, stehen nicht auf dem Feld, trainieren keine Spieler, sind keine Schiedsrichter.

Dr. Karsten Görsdorf ist Geschäftsführer des Instituts für Spielanalyse

Nein, wir veredeln Sportdaten. Wir leben in einer Nische. Was ich damit ausdrücken möchte: Ich kann Ihnen versichern, dass ich mir über die Relevanz unseres Know-hows für den Fortbestand unserer Gesellschaft im Klaren bin. Dennoch eignet sich unser Feld vielleicht in besonderer Art und Weise, weil wir experimentieren können, weil eben nicht Leib und Leben oder die Volkswirtschaft davon abhängt, wie wir mit Daten umgehen.

Zudem haben wir es mit komplexen dynamischen, interaktiven Systemen zu tun, die auch noch zusätzlich von Zufällen geprägt sind. Dies ist eine Mischung, die für andere gesellschaftliche Bereiche interessant sein könnte. Über die jüngste, geradezu sprunghaft, gestiegene Aufmerksamkeit für den Bereich der Datenanalysen im Fußball freue ich mich persönlich inständig. Es ist die Anerkennung für einen Prozess, der im deutschsprachigen Raum im Jahr 2006 durch die Ära Klinsmann initiiert wurde und seit 2010 nachhaltig von verschiedenen Institutionen, allen voran der Deutschen Fußball Liga (DFL) vorangetrieben wird.

Bevor wir aber sowohl im sportlichen Bereich (Spielanalyse, Trainingsanalysen, Gesundheitsdaten, Scouting, etc.) und nicht-sportlichen Segment (Connected Stadium, Fan Experience, eCommerce, etc.) aufgrund des Vortriebs der technologischen Möglichkeiten sowie der eingangs beschriebenen neuen Öffentlichkeit beginnen abzuheben, würde ich gerne zu einem Diskurs aufrufen. Denn für mich sind wesentliche Fragestellungen bei der zunehmenden Geschwindigkeit unserer Szene offen geblieben.

Diese lassen sich für mich in drei Themen unterteilen:

  1. Qualität der Datenfassung
  2. Semantisierung von Big Data Pools
  3. Data-driven Storytelling

Schuster bleib bei deinen Leisten! Deshalb werde ich im Folgenden die drei Themen, mit denen wir uns bei read-the-game.com auseinandersetzen, als Beispiele heranziehen. Ich bitte den geneigten Leser, dies für seine eigene Expertise zu übertragen.

1. Qualität der Datenerfassung

Wir haben es bei der Live-Spieldatenerfassung und beim Tracking von Positionen immer noch mit menschlichen oder halbautomatischen Prozessen zu tun. Bei den Spieldaten beispielsweise erfassen Menschen in Stadien oder an Bildschirmen innerhalb kürzester Frist Daten wie Pässe, Torschüsse, Zweikämpfe.

Dabei passieren natürlicher Weise Fehler. Die Accuracy-Rate beträgt live ca. 85%. Das bedeutet, dass der Rest false negative Fehler – also Spielerereignisse, die stattgefunden haben, aber nicht erfasst wurden und false positive Fehler – also Spielereignisse, die stattgefunden haben, aber in verschiedenen Merkmalen (Art, Zeit, Spieler) falsch erfasst wurden. Zudem nutzen verschiedene Erheber verschiedene Definitionskataloge.

Je nach Datenlieferant und Definition finden Sie beispielsweise bei bild.de, transfermarkt.de und bundesliga.com/de verschiedene Spielerwerte für Assists. Denn der Torschuss wird von einigen Datenerhebern als Assist gewertet, von anderen nicht. Ergo: Nehmen Sie im TV und im digitalen sowie Print-Blätterwald nicht alles für bare Münze, was sie lesen in Sachen Spieldaten.

Bei den Trackingsystemen können grob drei Systeme (GPS, Radar, Bilderkennung) unterschieden werden. Alle haben eine unterschiedliche Genauigkeit und verschiedene Vor- bzw. Nachteile. Ohne auf Details einzugehen, ist es aber so, dass in der Bundesliga bei den Klubs in Training und Wettkampf unterschiedliche Systeme genutzt werden. So kam es in den letzten Jahren dazu, dass beispielsweise das Athletiktraining auf verschiedenen Datensätzen beruhte und somit keineswegs eine optimale, gegebenenfalls sogar falsche Steuerung vorgenommen wurde.

Ich plädiere an dieser Stelle daher einerseits für eine selbstkritische Einstellung der Datenerheber und einen Fokus für verschiedene Qualitätsprozesse. Anderseits mahne ich an, im medialen, im fanorientierten, aber auch im sportlichen Bereich, die Daten nicht unkritisch als Grundlage für Aussagen und Entscheidungen heran zu ziehen, ohne das Bewusstsein für verschiedene Fehlerklassen im Hintergrund zu entwickeln.

2. Semantisierung von Big Data Pools

Die Herausforderung bei der Bearbeitung der Big Data Pools ist, dass an eigentlich noch dumme Datensätze komplexe Fragen gestellt werden. Dann werden mächtige Tools wie neuronale Netze genutzt – diese haben aber ein Problem. Die Gewichtungen zwischen den Knotenpunkten (Synapsen) müssen bestimmt werden.

Wenn man zu wenige Testdaten hat, kann man recht schnell hohe Trefferraten erzielen, weil man die Gewichte nicht gut bestimmt. Das System ist unterbestimmt, und man ist sehr anfällig für „noise“ in den Daten. Wir nennen das „overfitting“. Man kann unglaublich komplexe Zusammenhänge ausdrücken, aber es erfordert viele, viele Daten, um diese Zusammenhänge mittels der richtigen Gewichtungen verlässlich zu erkennen. Sonst bekommen wir zwar hübsche Ergebnisse aus dem Black Box System, aber die schlechte Nachricht ist, dass diese wahrscheinlich falsch sind.

Dabei helfen kann die Semantisierung von Daten. Dafür benötigen wir sportartspezifische Modelle: damit meine ich nichts anderes als Teilung, Gliederung und Klassifikation von Daten. So können wir frei nach Bourdieu: „Die Struktur der Relationen zwischen den Aussagen“ bestimmen. Die Semantisierung von Spieldaten wird sichtbar, wenn wir es auf eine Analogie übertragen.

Stellen Sie sich vor, Sie würden in einem Roman alle Buchstaben zählen und dann versuchen aus der Übersicht eine Interpretation abzuleiten. Zugespitzt ist das genau das momentane Vorgehen der Spieldaten-Erfassung im Fußball. Wir gehen einen Schritt weiter und sagen, lasst uns doch die kleinste semantische Einheit finden, die uns dabei hilft, das Spiel zu rekonstruieren. Das ist die Ballkontrolle.

Es gibt drei Zustände im Spiel: Team A hat Ballkontrolle, Team B und keines der Teams hat Ballkontrolle (es herrscht Chaos). Wir fassen also zwei Pässe, einen Zweikampf, einen Torschuss und ein Tor zu einer Ballkontrollphase, wir nennen sie Episode, zusammen. Aus mehreren Episoden ergeben sich Phasen des Spiels.

Sie kennen das sicher von Kommentaren: Das Spiel ist jetzt in einer hektischen Phase. Wir können das jetzt mit Daten des Spielrhythmus be- oder widerlegen.

So lassen sich darauf aufbauend ganze Spiele und Saisons erklären, alles aufbauend auf einer Episode, ähnlich wie es in einer literaturwissenschaftlichen Romaninterpretation durchaus möglich ist, sich an einem Wort des Autors zu orientieren.

3. Datadriven Storytelling

Die Geschichte der Menschheit ist zu guten Teilen von Geschichten geprägt: Lagerfeuer-Atomsphäre. Geschichten sind gerne erzählt, werden nachdrücklich erinnert und werden „unter die Leute gebracht“. Was wir alle miteinander zeigen müssen, um unseren Themenbereich dauerhaft zu etablieren, ist, dass wir den Weg von der Datenerfassung über die Veredlung hin zur Geschichte systematisch beschreiten können. Dabei rufe ich dazu auf, die sogenannten qualitativen Daten, die von Experten erhoben werden können, hinzuzunehmen. Denn diese sind oftmals die Aufhänger von guten Geschichten.

Den Wert von Robert Lewandowski in den letzten Jahren für den FC Bayern München erfasst man beispielsweise neben seiner Fähigkeit als Vollstrecker vor allem über die Anzahl seiner indirekten Beteiligungen an Episoden vor einem Tor oder einem Torschuss. Das heißt, wenn er die Situation maßgeblich ballfern durch eine Bewegung im Raum oder einen Block verändert. In jedem Jahr war er hier Spitze. Diese Daten werden aber kaum erfasst oder von fast niemanden erzählt.

Hier liegt das wahre Potential unserer Szene: Nicht nur den krampfhaften Versuch der Vollautomatisierung zu unternehmen, sondern die neu zur Verfügung stehende Zeit durch automatisierte Prozesse zu nutzen, um bessere Geschichten zu erzählen.

Lassen Sie uns den Diskurs am besten bei der „Big Data im Fußball“-Konferenz am 23. März in Graz von Angesicht zu Angesicht eröffnen. Ich freue mich auf alle Impulse aus verschiedenen Perspektiven. Tickets für die Konferenz gibt es unter www.fussball-business.com/tickets.

Hier bekommt ihr 60 Euro Rabatt auf ein Standard-Ticket. Gebt dafür einfach den Rabattcode „BigDataErmaessigt“ ein.

Like uns auf Facebook oder folge uns bei Twitter


Über den Autor

Karsten Görsdorf

Karsten Görsdorf wächst in Berlin auf und kehrt 2001 für sein Sportwissenschaft- und Germanistikstudium in seine Heimatstadt Rostock zurück. Dort lernt er bei der ersten Vorlesung Christoph Moeller kennen. Seit der Abschlussarbeit im Jahr 2005 beschäftigen sich beide zunächst im Handball, später im Fußball, Basketball, Hockey und Volleyball, mit der Methode der Qualitativen Spielbeobachtung, über die sie auch 2009 gemeinsam an der Universität Augsburg unter Prof. Dr. Martin Lames promovieren. Im Jahr 2010 gründen sie das Unternehmen Institut für Spielanalyse in Potsdam ( www.spielanalyse.org) und beraten seitdem vor allem Organisationen im Sport in Themenbereichen der Trainingswissenschaft und Sportinformatik.

Die wichtigsten Projekte in der kurzen Historie des Instituts für Spielanalyse, in dem auch Hannes Kulok und Steffen Görsdorf arbeiten, sind:
Beratung der Deutschen Fußball Liga bei der Konzeption Einführung und Qualitätskontrolle der Offiziellen Spieldaten
Implementierung des Videotrainings beim FC Augsburg, VfL Wolfsburg, RB Leipzig und beim 1.FFC Turbine Potsdam
Konzeption und Durchführung der Nachwuchstrainerausbildung sowie die Zertifizierung der Nachwuchsleistungsstandorte der Basketball Bundesliga
Google im Rahmen der Digital News Initiative finanzierte Projekt „Read the Game“ zusammen mit Spiegel Online und der TU München.

Kommentieren