David Sumpter har nå levert fem artikler i denne serien og vi starter å få litt fremgang i hvordan man kan bruke matematikk i fotball. Sumpter startet med å vise at det er mange tilfeldigheter og mye flaks involvert i fotballkamper. Så viste han at de mange statistikkene, som for eksempel ballinnehav, ikke hjelper oss noe særlig til å forutse utfall av kamper. I de to siste artiklene har han utviklet en modell, kjent som forventede mål, som evaluerer lag etter hvor mange sjanser de produserer. Kan forventede mål være ligningen som hjelper supporterne å forstå sitt lag? Hjelper dem å forstå taktikken slik at de kan overvinne bookiene?

David Sumpter er redd svaret er nei. Forventede mål er ikke en del av fotballens magiske ligning. Fotballanalyse har fortsatt en lang vei å gå. Forventede mål er et utgangspunkt, men vi trenger å anerkjenne svakhetene med denne teknikken.

La oss gjenta hva forvente mål-modellen er nyttig for: modellen måler om et lag genererer gode målsjanser. Det bekreftes at lag som skyter fra bedre posisjoner er bedre enn dem som skyter fra større avstand. I tillegg støtter statistikken følgende observasjon: lag med en forventet høyere målfrekvens i fortiden har større sannsynlighet for å vinne kamper i fremtiden. Forventede mål er en enkel måte å måle kvaliteten på sjanseskapningen. Hver supporter, spiller eller trener som ønsker innsikt i hvor godt laget presterer, bør være klar over lagets antall forventede mål.

Men forventede mål er ikke den eneste måten å måle sjanseproduksjonen. Med fare for å poengtere det åpenbare: vi bør ikke glemme den andre måten for å måle hvor godt et lag spiller, nemlig ved å faktisk se kampene deres!

Når Opta samler inn data på skudd får de også med en statistikk på hva operatøren mener er en stor sjanse. Hva som gjør et skudd eller en heading til en stor sjanse er vanskelig å definere. Men de fleste av oss vet når vi ser en stor sjanse. Og Opta-operatørene gjennomfører trening slik at de påser at operatørene holder lik linje, for å få en så konsekvent måling som overhodet mulig.

Menneskene som måler store sjanser er ganske gode til å forutse sannsynligheten for at et skudd ender i scoring. Faktisk er de like gode som forvente mål-modellen. Mennesker er like gode som statistikker til å evaluere kvaliteten på sjansene lagene lager. Nedenfor sammenlignes Liverpools store sjanser de første sju ukene av Premier League, med sjansene som hadde en forventede mål-verdi på over 20 %. De sorte sirklene indikerer et faktisk mål.

liverpoolshots_900

Liverpool har hatt mange store sjanser denne sesongen. Liverpool har også et høyt antall forventede mål. Både de som ser på tallene, og de som ser laget faktisk spille, vil altså si at Liverpool er et veldig godt lag denne sesongen.

For de som vil dra nytte av forventede mål-modellen, er store sjanser et stort problem. Modellen kjemper mot tusenvis av fans som ser kampen. Det er spillene de som ser kampen setter som avgjør bookmakernes odds, og det er denne vise gjengen du må slå for å tjene penger. Og det ser ikke ut som om forventede mål-modellen består testen. Mennesker er like gode som statistikkene når det gjelder å fortelle hvor godt et lag spiller.

I boken «Soccermatics» testet jeg forventede mål-modellen og fant ut at den klarte seg greit mot boomakerne sine odds, men den tjente ikke penger på lang sikt.

Så kan vi egentlig bruke matematikk for å forstå fotball? Det er nå det begynner å bli interessant. Dersom vi ønsker å bruke matematikken, må vi gå enda dypere til verks. Det hjelper ikke å bare se på tilfeldigheter, ballbesittelse og skuddstatistikk. Vi må se på hvor lagene vinner tilbake ballen, hvordan spillerne kombinerer med hverandre, og hvor nøkkelpasningene blir slått. Det skal vi se nøyere på i de kommende artiklene.

LES VIDERE

Sumpter ble først oppmerksom på problemet med store sjanser og forventede mål via Jan Mullenberg. Han illustrerer poenget i denne artikkelen

GEEK BOX

For å teste sammenhengen mellom store sjanser og forventede mål, brukte Sumpter to modeller. Den første ble basert på menneskelige observasjoner og den andre ble basert på statistikker, hvor Sumpter brukte logisk regresjon (forklart i artikkel 3).

Den første modellen var sannsynligheten for å score som følge av at et skudd er en stor sjanse. Den beste modellen var:

Modellen hadde R2=0.159

Den andre modellen bestod av logisk regresjon på en rekke variabler, som ikke inkluderte store sjanser. Den beste modellen for sannsynligheten for å score inkluderte de følgende faktorene: avstand til målstreken, avstanden til midt på banen, om angrepet var et raskt brudd, om skuddet kom fra en corner, om skuddet var sterkt eller svakt, om det oppstod fra en volley eller halvvolley, om det kom fra åpent spill. Til tross for mange flere parametere, hadde modellen R2=0.167, hakket større enn store sjanser-modellen. Derfor konkluderer jeg med at modellen basert på statistikker ikke utkonkurrerer den basert på menneskelige observasjoner.

Annonse

Kommentarer

Om forfatter

Legg igjen en kommentar