Menu Close

„Маchine learning” przewiduje zwycięzcę Pucharu Świata

Naukowcy przewidują wynik Pucharu Świata w piłce nożnej po wykonaniu 100 tys. symulacji całego turnieju

Puchar Świata w piłce nożnej w 2018 r. rozpoczyna się w Rosji w najbliższy czwartek i prawdopodobnie będzie jednym z najczęściej oglądanych wydarzeń sportowych, bardziej nawet popularnym niż olimpiada. Potencjalni zwycięzcy wzbudzają więc olbrzymie zainteresowanie.
Jednym ze sposobów sprawdzenia prawdopodobnych wyników jest spojrzenie na kursy bukmacherskie. Firmy te bowiem wykorzystują profesjonalną statystykę do analizy obszernych baz danych wyników w sposób, który określa prawdopodobieństwo wyników każdego możliwego dopasowania.
W ten sposób bukmacherzy mogą oferować kursy na wszystkie gry, które odbędą się w ciągu kilku następnych tygodni, a także oceniać szanse na potencjalnych zwycięzców.

Jeszcze lepsze szacunki wynikają z łączenia ocen wielu różnych bukmacherów. Podejście takie sugeruje, że Brazylia z prawdopodobieństwem 16,6 procent jest zdecydowanym faworytem w walce o Puchar Świata w 2018 roku, następni są Niemcy z prawdopodobieństwem 12,8 procent i Hiszpania – 12,5 procenta.

Jednak w ostatnich latach naukowcy opracowali techniki uczenia maszynowego, które mają znacznie wyższy potencjał niż konwencjonalne metody statystyczne.

Kogo przewidują te nowe techniki na zwycięzcę Mistrzostw Świata w 2018 roku?

Odpowiedź pochodzi z pracy Andreasa Grolla z Uniwersytetu Technicznego w Dortmundzie w Niemczech i kilku jego kolegów. Użyli oni kombinacji konwencjonalnej statystyki oraz uczenia maszynowego z zastosowaniem metody zwanej podejściem „random – forest„ (algorytm drzew decyzyjnych) w celu zidentyfikowania najbardziej prawdopodobnego zwycięzcy.

Najpierw tytułem wprowadzenia – metoda „random forest” pojawiła się w ostatnich latach jako sposób analizy dużych zbiorów danych. Unika ona przy tym pułapek występujących w innych metodach eksploracji danych. Opiera się bowiem na założeniu, że pewne przyszłe zdarzenie może być określone przez drzewo decyzyjne, w którym wynik jest obliczany dla każdej gałęzi przez odniesienie do zbioru danych przykładowych.
Jednak drzewa decyzyjne cierpią na dobrze znany problem. Na późniejszych etapach procesu rozgałęziania, decyzje mogą zostać poważnie zniekształcone przez dane przykładowe, które są rzadkie i podatne na ogromne różnice w tego rodzaju rozdzielczości. Problem znany jest jako “nadmierne dopasowanie”.
Podejście „random – forest” jest inne. Zamiast obliczać wynik w każdej gałęzi, proces oblicza wynik losowych gałęzi. Robi to wiele razy, za każdym razem z innym losowo wybranym zbiorem. Wynik końcowy jest średnią wszystkich losowo skonstruowanych drzew decyzyjnych.

Takie podejście ma znaczące zalety. Po pierwsze, nie cierpi z powodu problemu nadmiernego dopasowania, który nęka zwykłe drzewa decyzyjne i pokazuje, które czynniki są najważniejsze w określaniu wyniku.
Jeśli więc określone drzewo decyzyjne zawiera wiele parametrów, to łatwo zauważyć, które z nich mają największy wpływ na wynik, a które nie. Te mniej ważne czynniki można następnie zignorować w przyszłości.
Groll i spółka wykorzystali właśnie to podejście do przewidywania wyniku Pucharu Świata w 2018 roku. Modelowali wyniki każdej gry w której zespoły mogą grać i wykorzystali je do skonstruowania najbardziej prawdopodobnego przebiegu turnieju.

Zaczęli od szerokiego zakresu potencjalnych czynników, które mogą decydować o wyniku. Obejmują one czynniki ekonomiczne, takie jak PKB, liczba ludności danego kraju, ranking drużyn narodowych FIFA oraz właściwości samych drużyn, takie jak średni wiek, liczba posiadanych przez nich zespołów i zawodników Ligii Mistrzów itd.
Co ciekawe, podejście random – forest pozwoliło Grollowi i współautorom na zastosowanie również innych prób, takich jak np. rankingi stosowane przez bukmacherów.

Podłączenie ich do modelu dostarczyło interesujących wglądów. Na przykład bardzo wpływowymi czynnikami okazały się rankingi drużyn stworzone metodami takimi jak np. rankingi bukmacherskie, FIFA czy inne. Mniej istotnymi czynnikami była wysokość PKB, czy liczba zawodników Ligi Mistrzów w zespole itp. Nieistotnymi natomiast, populacja kraju czy narodowość trenera.
Prognozy uzyskane w tym procesie różnią się od innych kilkoma ważnymi elementami.

Początkowo metoda random-forest wybiera Hiszpanię jako najbardziej prawdopodobnego zwycięzcę, z prawdopodobieństwem 17,8%.
Jednak istotnym czynnikiem w tej prognozie jest struktura samego turnieju. Jeśli Niemcy wyjdą z fazy grupowej, to prawdopodobnym jest, że napotkają na mocny opór w fazie pucharowej 16 drużyn. Z tego powodu metoda „random – forest” oblicza szanse Niemiec na osiągnięcie ćwierćfinałów jako 58 procent. Z drugiej strony, jest mało prawdopodobne, aby Hiszpania spotkała się z silnymi przeciwnikami w finałowej 16, a więc ma 73 procent szans na awans do ćwierćfinału.
Jeśli oba zespoły wejdą do ćwierćfinałów, to mają mniej więcej równe szanse na wygraną. “Hiszpania jest nieco faworyzowana w stosunku do Niemiec, głównie ze względu na fakt, że Niemcy mają stosunkowo wysoką szansę na odpadnięcie w fazie finałowej 16” – twierdzą Groll i spółka.
Ale jest i dodatkowy element. Proces drzewa losowego umożliwia symulację całego turnieju, a to daje zupełnie inny wynik.

Groll i spółka symulowali cały turniej 100 000 razy. “Według najbardziej prawdopodobnego kursu, to drużyna niemiecka wygra Puchar Świata”. Jednak, ze względu na ogromną liczbę permutacji gier, ten wynik jest nadal bardzo mało prawdopodobny. Groll i spółka oceniają szanse na około 1 do 100 000.
Podsumowując – na początku turnieju Hiszpania ma największe szanse na wygraną, ale według Groll’a i spółki jeśli Niemcy wejdą do ćwierćfinałów, wówczas staną się czołowym zawodnikiem.

Turniej rozpoczyna się w czwartek meczem Rosja – Arabia Saudyjska. Niestety, żadna z tych drużyn – zdaniem naukowców programujących “machine learning”, prawdopodobnie nie zagra nawet w ćwierćfinale.

 

Wg: arxiv.org/abs/1806.03208 : Prediction Of The FIFA World Cup 2018 – A Random Forest Approach With An Emphasis On Estimated Team Ability Parameters

Leave a Reply

Your email address will not be published.