Co stoi na przeszkodzie, by piłką nożną zawładnęła statystyka?

W dobie wszechobecnego internetu, fani sportu na całym świecie mają nieustanny dostęp do nieprzebranej masy informacji. Darmowe strony internetowe i aplikacje mobilne pozwalają nam na bieżąco śledzić kilkaset meczów dziennie, w ciągu kilkudziesięciu sekund dowiadywać się o żółtej kartce pokazanej zawodnikowi grającemu w lidze kolumbijskiej czy też sprawdzić, ile minut na boisku spędził w rozgrywkach ligowych rezerwowy bramkarz reprezentacji Gibraltaru. Podobnie ma się rzecz w odniesieniu do innych popularnych sportów – fani tenisa, koszykówki czy baseballu mogą łatwo znaleźć szczegółowe informacje i liczby dotyczące zmagań w tych dyscyplinach sportu. W przeciwieństwie jednak do wspomnianych sportów, opartych w dużej mierze na liczbach, konsensus wśrod fanów futbolu zdaje się głosić, że miejsce statystyk w piłce nożnej nigdy nie będzie znaczące. Bardzo często spotyka się głosy twierdzące, że futbol to gra zbyt swobodna, by dało się ją wiarygodnie scharakteryzować przy użyciu statystyk. Czy tak jest w istocie? Czy mecz piłki nożnej da się obiektywnie opisać, używając powszechnie dostępnych danych liczbowych?

Uczciwa odpowiedź na to pytanie brzmi – zależy jakich. Nie da się uciec od obserwacji, że swoboda charakteryzująca piłkę nożną uniemożliwia łatwe scharakteryzowanie meczu piłkarskiego z użyciem liczb. Posłużę się tu cytatem z opublikowanego na portalu Weszło wywiadu z Michaelem Caleyem, analitykiem piłkarskim współpracującym m.in. z firmą analityczną Opta: „Baseball to sport zespołowy, ale w którym prawie wszystko rozgrywa się w statycznych pojedynkach indywidualnych, a przez to jest łatwy do opisania statystycznie. Liczba kontekstów, w jakich odbywają się te pojedynki, też jest ograniczona, a bazy zaawansowanych statystyk są prowadzone od lat dwudziestych. W piłce powiedzmy, że piłkarz dostanie piłkę pięćdziesiąt razy podczas jednego meczu – za każdym razem będzie to w zupełnie innym kontekście, nie da się więc tego tak łatwo zredukować, opisać. System zapisze celne podanie, ale nie zapisze, że było dziesięć lepszych opcji do rozegrania akcji. Historia zaawansowanych statystyk? (…) Początkowo trzeba było gromadzić bazę ręcznie”. Te słowa dość wyraźnie obrazują przepaść, jaka dzieli piłkę nożną od innych, bardziej podatnych liczbowej analizie dyscyplin sportu. Dodajmy do tego fakt, że statystyki dostępne „przeciętnemu” widzowi, który nie chce/nie może sięgnąć do bardziej szczegółowych źródeł, są mocno okrojone. Rzućmy okiem na przykładowy ekran statystyk w przerwie meczu polskiej ekstraklasy w 2016 roku:

Zastanówmy się, jakie wnioski można wysnuć z przedstawionych powyżej liczb:

  • wynik meczu – przejrzysta, jasna, przydatna informacja (jedna z niewielu na ekranie),
  • liczba żółtych i czerwonych kartek – informacja względnie użyteczna, przydałyby się dodatkowe adnotacje, którzy zawodnicy otrzymali kartoniki i w której minucie meczu miało to miejsce,
  • strzały i strzały celne – na pierwszy rzut oka przedstawione liczby sugerują dominację ofensywną Wisły w pierwszej połowie meczu, ale czy tak musiało być w rzeczywistości? Być może Legia gościła w strefie obronnej Wisły częściej niż vice versa, ale obrońcy i bramkarz przecinali dośrodkowania, zanim mogło dojść do strzału na bramkę? Być może większość strzałów oddanych przez wiślaków to kopnięcia „panu Bogu w okno”, albo tzw. „kartofle”, które ledwo doleciały do linii bramkowej?
  • posiadanie piłki – moim zdaniem najbardziej bezsensowna statystyka w piłce nożnej. Procent posiadania piłki nie mówi absolutnie nic o stylu gry drużyny ani o przebiegu meczu, jeżeli nie rozpatrujemy go pod kątem położenia piłki na boisku.
  • spalone – informacja jasna i klarowna, ale niemająca większej przydatności analitycznej. Wysoka liczba odgwizdanych pozycji spalonych może ewentualnie świadczyć o zdyscyplinowanej linii obrony przeciwnika, lub przeciwnie o napastniku nieświadomym swojej pozycji na boisku (w tym drugim przypadku przydają się bardziej statystyki indywidualne).
  • faule – informacja nieprzydatna dopóty, dopóki nie ma rozróżnienia pod względem brutalności faulu i miejsca, w którym został odgwizdany. Bezsensowne jest zrównywanie wycięcia przeciwnika „równo z trawą” we własnym polu karnym do nieco zbyt mocnego popchnięcia rywala podczas walki o górną piłkę w centralnym sektorze boiska.
  • podania i celne podania – występuje tu problem analogiczny do tego z procentem posiadania piłki. Ta statystyka zrównuje ze sobą spokojne podanie od stopera do bramkarza w sytuacji bezstresowej i sprytne wypuszczenie napastnika na wolne pole przez utalentowanego rozgrywającego. To pierwsze zagranie niesie ze sobą znaczne mniejsze ryzyko utraty piłki niż drugie, ale ma też w porównaniu z nim dużo mniejszą wartość dodaną dla drużyny.

Łatwo można zatem dojść do wniosku, że statystyki, które serwują swoim odbiorcom  „mainstreamowe” media sportowe, mają dosyć małą wartość analityczną. Dociekliwy kibic, chcąc dokładniej zbadać dane zagadnienie pod kątem liczbowym, napotka pewną kluczową trudność – dostęp do dokładnych i przystępnych w obróbce danych piłkarskich jest znacznie utrudniony. Fani sportów amerykańskich mogą z łatwością skorzystać z darmowych serwisów, takich jak na przykład Sports Reference (szeroka baza danych z meczów m. in. baseballu, futbolu amerykańskiego czy koszykówki, w dwóch ostatnich przypadkach obejmująca również ligi akademickie) czy FanGraphs. Najlepszym źródłem informacji o polskiej piłce jest oczywiście portal 90minut.pl, ale i korzystanie z niego w celach analitycznych nie jest łatwe – jeśli nie znamy języków skryptowych typu Python, jedyną możliwością pobrania z niego danych jest ręcznie skopiowanie ich i wklejenie np. do Excela. Podobnie należy ocenić zagraniczne serwisy statystyczne, takie jak na przykład Soccerway czy SoccerStats – zawierają one bardzo dużą ilość informacji na temat kilkudziesięciu lig piłkarskich z całego świata, ale obróbka zawartych tam danych wymaga dużej ilości żmudnej ręcznej pracy, co definitywnie zniechęca większość amatorskich analityków futbolu.

Tendencja do wykorzystywania danych liczbowych w zarządzaniu drużynami piłkarskimi jest zdecydowanie rosnąca, o czym świadczy liczba analityków i statystyków zatrudnianych przez kluby z wielu lig, łącznie z polską ekstraklasą. Korzystają oni najczęściej z płatnych baz danych, takich jak na przykład Opta albo InStat. Są to fantastyczne źródła informacji, oparte m. in. na algorytmicznym śledzeniu poczynań piłkarzy, umożliwiającym rejestrację kilkunastu tysięcy tzw. „wydarzeń meczowych” (podań, strzałów, przebiegniętego dystansu itd.), pozwalające generować raporty o dużej wartości analitycznej. Roczny dostęp do piłkarskich baz Opta, w wariancie umożliwiającym dokładną analizę takich wydarzeń meczowych kosztuje około 10 tysięcy dolarów (źródło). O ile więc kluby piłkarskie mogą sobie pozwolić na taki względnie nieduży koszt, by móc lepiej przygotować się do meczu, o tyle profesjonalne bazy danych znajdują się poza finansowym zasięgiem kibiców ze skrzywieniem analitycznym.

Te dwa problemy muszą zostać wyeliminowane, by statystyki mogły na dobre zadomowić się w świadomości fanów piłki nożnej. Sympatycy futbolu są aktualnie „karmieni” nic nie znaczącymi informacjami (takimi jak procent posiadania piłki czy celnych podań), a uzyskanie i obróbka bardziej przydatnych danych wymaga albo sporych nakładów finansowych, albo opanowania metod informatycznych usprawniających pobieranie i obróbkę danych ze słabo dostosowanych do tego źródeł (a w ostateczności wykonywanie tego typu prac ręcznie). Negatywny wpływ na rozwój metod statystycznej analizy piłki nożnej ma również totalne ignorowane tej dziedziny przez większość mediów – czy słyszeliście kiedyś, żeby którykolwiek ekspert w studiu telewizyjnym użył pojęcia Expected Goals (w skrócie xG)? Fani baseballu (na tym blogu zapewne nieliczni) niech wyobrażą sobie sytuację, w której na antenie ESPN nie używa się pojęć takich jak ERA czy WAR

W odpowiedzi na pytanie postawione w tytule wpisu – główną przeszkodą, by piłką nożną, podobnie jak innymi popularnymi na świecie dyscyplinami sportu, zawładnęły liczby, jest utrudniony dostęp do tych liczb. Źródła danych, z których mogliby korzystać amatorscy analitycy, są albo kosztowne, albo nieprzyjemne w obróbce. Bez danych liczbowych nie może być mowy o jakichkolwiek analizach, a dopóki osoby zainteresowane tego typu badaniami będą musiały ręcznie przerabiać pobrane z internetu informacje, by móc podpiąć je do testowanych modeli, dopóty analityka piłkarska pozostanie głównie domeną profesjonalistów zatrudnianych przez kluby sportowe. Jestem jednak w pełni przekonany, że podejście reprezentowane m. in. przez Franciszka Smudę, któremu „laptop służy jako podkładka pod kawę”, będzie wkrótce traktowane(o ile już nie jest) jako archaiczne i niemające miejsca we współczesnym futbolu. Wraz z nieuniknionym rozwojem piłkarskich baz danych ocena poczynań piłkarzy na boisku będzie oparta coraz bardziej na obiektywnie zaobserwowanej produktywności danego gracza, a coraz mniej na sposobie, w jakim wchodzi on po schodach.

Ten wpis został opublikowany w kategorii OPINION i oznaczony tagami , , , , . Dodaj zakładkę do bezpośredniego odnośnika.

Jedna odpowiedź na „Co stoi na przeszkodzie, by piłką nożną zawładnęła statystyka?

  1. ~N pisze:

    Złamałeś sport.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>