[ITA] – Le statistiche avanzate di Soccerment

Uno degli obiettivi principali dell’analisi dati applicata al calcio è di informare chi prende decisioni strategiche nel modo più oggettivo e imparziale possibile. Poiché il calcio è uno sport con punteggi bassi, dove il risultato è determinato da eventi rari soggetti ad un alto grado di casualità, statistiche come gol e assist sono spesso insufficienti nel misurare la performance reale di giocatori e squadre. Grazie a data set estremamente dettagliati contenenti informazioni posizionali e contestuali su ogni evento legato alla palla durante una partita, possiamo usare strumenti di machine learning per costruire metriche di performance più oggettive.


Introduzione

In uno sport con punteggi bassi quale il calcio, spesso le nostre valutazioni della performance dei giocatori sono distorte da occorrenze di eventi rari di alto valore come i gol. Siamo abituati a vedere casi in cui un giocatore, dopo aver segnato un paio di gol di fila, riceve immediatamente tantissima attenzione dai tifosi e dai media, per poi essere dimenticato in poche settimane, dopo una fase senza reti. Le conversazioni sul calcio sono spesso caratterizzate da alta volatilità, con alti e bassi nei giudizi che si susseguono a un ritmo frenetico, in base a risultati determinati da eventi rari e parzialmente casuali.

È quindi facile capire come qualcuno in una posizione manageriale nel calcio, come un allenatore o un direttore sportivo, abbia bisogno di informare i propri processi decisionali tramite metriche di performance volte quanto più possibile all’oggettività e alla robustezza statistica. Per esempio, nello scegliere un nuovo attaccante, un allenatore vorrebbe sicuramente evitare di acquistare una cosiddetta “meteora”, ossia un giocatore che ha avuto una stagione sorprendentemente positiva, per poi deludere le aspettative sul lungo termine. Forse il giocatore ha segnato tante reti perché fa in modo di trovarsi regolarmente in situazioni di gioco pericolose? Oppure tenta principalmente tiri improbabili, di cui un numero più alto della media è finito in gol grazie a una buona dose di casualità, di cui il calcio abbonda?

L’analisi dati applicata al calcio si ripropone di trovare delle soluzioni a questi problemi (trovate qui il nostro ebook sull’importanza crescente dell’analisi dati nel calcio), facendo uso di data set dettagliati contenenti informazioni posizionali e contestuali su tutte le azioni legate alla palla che accadono in una partita, detti “event data”. Applicando metodi di machine learning a questi grandi data set contenenti milioni di eventi, possiamo derivare modelli statistici che ci permettono di trasformare risultati binari di eventi rari come gol e assist in probabilità, che, se interpretate e aggregate nel modo corretto, forniscono misure di performance più oggettive.


[ec_store modelnumber=”REA001-EEN-2010″]

In questo report, introdurremo le statistiche avanzate di Soccerment, ognuna con uno scopo preciso:

  • Expected Goals (xG): quantificare la qualità dei tiri assegnando una probabilità di gol
  • Expected Assists (xA): valorizzare la creatività assegnando probabilità di assist ai passaggi
  • Expected Offensive Value Added (xOVA): isolare il contributo offensivo di un giocatore
  • Expected Goals on Target (xGoT) / Goals prevented: misurare la qualità di esecuzione del tiro e l’abilità del portiere
  • Expected Pass (xPass): identificare giocatori con abilità di passaggio superiore

Nelle prossime settimane inizieremo a integrare progressivamente queste metriche nella nostra piattaforma di analytics.

Expected Goals (xG)

Cosa sono gli Expected Goals?

Gli Expected Goals (spesso indicati come xG) sono la statistica avanzata più usata e conosciuta nel mondo del calcio. Gli xG quantificano la qualità delle occasioni da gol assegnando a ogni tiro una probabilità di essere convertito in rete, in base alle informazioni contenute negli event data, di cui quella di gran lunga più importante è la posizione del tiro. Per esempio, un tipico tiro dalla zona centrale al limite dell’area di rigore avrebbe un valore di circa 0.1 xG. Questo significa che, in media, possiamo aspettarci che un tiro da quella posizione in un contesto simile finisca in rete nel 10% dei casi.

È importante, tuttavia, evitare di considerare gli xG come una vera e propria probabilità di gol sul singolo tiro. Nel confrontare gli xG con il numero di gol reali, ci si può attendere una corrispondenza approssimata, e quindi un potere predittivo significativo, solo aggregando un grande numero di dati, per esempio un’intera stagione di un certo campionato. A livello del singolo tiro, gli xG vanno letti come una misura della qualità dell’occasione da gol. Per esempio, può capitare che una squadra che produce regolarmente più xG degli avversari manchi i tre punti in singole partite o persino in una serie di partite, ma la loro performance reale evidenziata dagli xG ci dice che nel lungo termine ci si aspetta che la squadra ottenga buoni risultati.

Per quanto riguarda i singoli giocatori, il valore medio di xG per tiro indica quanto il giocatore è selettivo nel decidere se e quando tirare. Un xG per tiro sotto la media indica un giocatore che tenta molti tiri dalla distanza. Viceversa, valori alti di xG per tiro sono tipici di un attaccante che tira soprattutto dall’interno dell’area di rigore.

Il modello di Expected Goals di Soccerment

Gli Expected Goals di Soccerment sono calcolati applicando un modello di regressione logistica a centinaia di migliaia di tiri con informazioni posizionali e contestuali, contenute nei dati forniti da Opta. Come detto in precedenza, la variabile più importante nel modello è la posizione del tiro, che codifichiamo in distanza e angolo di porta (cioè l’angolo sotto il quale il tiratore vede la porta). Altre variabili importanti sono (fra le altre) il tipo di assist (filtrante, cross, ecc.), il punteggio, il piede (o parte del corpo) del tiro, e la situazione di gioco (azione, calcio piazzato, ecc.) I calci di rigore sono un caso particolare, trattandosi di un evento estremamente semplice con condizioni prefissate, per cui il valore di xG è una costante pari al tasso di conversione medio, ossia 0.78 nel nostro data set.

Gol e tiri con xG alto di Robert Lewandowski, stagione 2020/21 (esclusi i rigori). La dimensione dei punti indica il valore di xG del tiro.

Expected Assists (xA)

Cosa sono gli Expected Assists?

Gli Expected Assist, o xA, rappresentano la probabilità che un passaggio diventi assist, ossia che il giocatore che riceve il passaggio segni un gol. Lo scopo di questa metrica è di assegnare il merito a giocatori creativi, capaci di creare occasioni da gol pericolose per i propri compagni.

Il modello di Expected Assists di Soccerment

A differenza degli xG, per i quali c’è un ampio consenso sul concetto di base e lo scopo della metrica nella comunità di analisi dati per il calcio, ci sono due principali scuole di pensiero sugli xA, che si possono identificare come “shot-centric” e “pass-centric”.

Nel primo caso, gli xA sono assegnati solo a passaggi seguiti da un tiro, semplicemente attribuendo il valore di xG del tiro come xA al giocatore che ha fornito il passaggio, e quindi non prevede ulteriori calcoli. Questo è il metodo utilizzato dalla maggior parte dei fornitori di statistiche avanzate. Nel secondo caso, viene costruito un modello a parte su tutti i passaggi riusciti, calcolando una probabilità che ognuno diventi un assist, a prescindere dal fatto che il giocatore che riceve il passaggio tiri in porta o meno.

Siamo convinti che questo secondo approccio sia il più corretto nell’attribuire il merito a giocatori creativi, in quanto separa il loro rendimento nei passaggi dalle scelte e dall’abilità del compagno che li riceve, e si limita a valutare se il giocatore fornisce la palla ai compagni in posizioni e situazioni pericolose con regolarità e precisione. Dall’altro lato, questo approccio evita di attribuire indebitamente dei meriti ad un giocatore che passa la palla in una zona poco pericolosa, nel caso il cui l’azione successiva risulti essere un tiro con xG alto grazie ad un’azione individuale del compagno che riceve il passaggio. Un esempio lampante di questo tipo di situazione è il gol di Romelu Lukaku nel derby di Milano della scorsa stagione, vinto dall’Inter per 0-3.

Il gol di Romelu Lukaku nel ritorno del derby di Milano, stagione 2020/21.

Perisic fa un passaggio lungo dalla trequarti difensiva dell’Inter. La palla viene raccolta nel cerchio di centrocampo da Lukaku, che quindi parte in solitaria superando la difesa del Milan e segna il gol del definitivo 0-3, con un tiro da 0.11 xG. Quasi tutti i fornitori di statistiche avanzate attribuisco 0.11 xA al passaggio di Perisic, mentre è chiaro che il merito nel creare questa occasione da gol spetta quasi interamente a Lukaku. Al contrario, il modello di xA di Soccerment, data la bassa pericolosità del passaggio, attribuisce 0.001 xA. Crediamo che questo rifletta meglio lo spirito e lo scopo della metrica.

Il nostro modello di xA, analogamente a quello di xG, è una regressione logistica applicata a milioni di passaggi riusciti, con informazione posizionale e contestuale, nel data set fornito da Opta.

Assist e passaggi con alto xA di Kevin De Bruyne, stagione 2020/21. La dimensione dei punti indica il valore di xA del passaggio.

Expected Offensive Value Added (xOVA)

Sommando xG ed xA possiamo misurare il rendimento offensivo totale di un giocatore fornito tramite tiri e passaggi. Per poter isolare il contributo del singolo giocatore da quello della squadra, possiamo sottrarre a questa somma il totale degli xA ricevuti, in modo da misurare il valore offensivo che il giocatore aggiunge a quello che gli viene fornito dai compagni. Abbiamo chiamato questa nuova metrica Expected Offensive Value Added, o xOVA.

xOVA = (non-penalty xG + xA) – xA ricevuti

Crediamo che questa semplice metrica offra una misura corretta della capacità di un giocatore di trasformare positivamente un possesso palla, aumentando la probabilità che la propria squadra segni un gol. D’altronde, dopo aver ricevuto un passaggio il giocatore può dribblare, portare palla o anche perderla, ma il suo obiettivo finale sarà quello di tirare o di passare la palla a un compagno in una posizione migliore. La qualità nel processo decisionale e nella selezione di questi tiri e passaggi verrà quindi misurata in xG e xA.

È bene notare due punti importanti: a) xOVA misura la creazione di occasioni da gol, non il risultato finale di queste occasioni; b) questa metrica può essere calcolata solo se gli xA sono costruiti secondo un modello “pass-centric”, e non tramite un modello di xA “shot-centric”, il che è uno dei motivi per cui abbiamo scelto il primo e non il secondo.

Osservando i dati della scorsa stagione nei top 7 campionati Europei, vediamo che il contributo offensivo maggiore normalizzato per 90 minuti è stato quello di Luis Muriel, con 0.73 xOVA P90, frutto di 0.81 xG, 0.26 xA forniti e 0.35 xA ricevuti.

Top 10 per xOVA P90 nel 2020/21 (minimo di 900 minuti giocati). La lunghezza delle singole barre relative a xG e xA non rappresenta il loro valore ma la proporzione del loro contributo al xOVA.

Expected Goals on Target (xGoT) e goals prevented

Cosa sono gli Expected Goals on Target?

Il modello di xG che abbiamo descritto in precedenza rappresenta una probabilità di gol pre-tiro, cioè non tiene conto di dove la palla va a finire. Il valore di xG è lo stesso sia che il tiro sia centrale, direttamente in mano al portiere, sia che sia piazzato perfettamente sotto l’incrocio dei pali. By construction, xG represents the goal probability assuming average shot placement skill.

Per poter valutare l’abilità di finalizzazione del tiratore, utilizziamo le coordinate di tiro nello specchio della porta, che sono fornite dai dati Opta per i tiri parati e i gol, per calcolare una probabilità di gol post-tiro, che chiamiamo Expected Goals on Target, o xGoT. Analogamente agli xG, questa metrica viene calcolata tramite una regressione logistica sulle decine di migliaia di tiri nello specchio presenti nel nostro data set. Le variabili utilizzate sono però molto più semplici: il valore di xG corrispondente, che contiene tutte le informazioni posizionali e contestuali, e le due coordinate dello specchio della porta (orizzontale e verticale).

La differenza fra xGoT e xG misura l’abilità di tiro del tiratore, in quanto rappresenta l’aumento di probabilità di segnare rispetto a quella pre-tiro. Questa quantità è chiamata Shooting Goals Added o SGA. È importante notare un caveat nell’interpretare questa metrica: le coordinate nello specchio della porta sono fornite solo per tiri parati e gol, e non per tiri intercettati, per cui il modello non comprende tutti i tiri indirizzati nello specchio, ma solo quelli che effettivamente ci arrivano.

Normalizzando gli SGA dividendoli per gli xG, possiamo vedere chi sono i giocatori che più aumentano le loro probabilità di segnare grazie alla loro abilità di tiro. Non sorprende trovare Lionel Messi in cima a questa classifica per la stagione 2020/21, fra i giocatori con almeno 50 tiri nello specchio. Anche l’attaccante della Lazio Ciro Immobile si trova nella top 10 stagionale per questa metrica.

Top 10 per shooting goals added per xG (stagione 2020/21, minimo di 900 minuti giocati e 50 tiri nello specchio).
Goal e tiri di Lionel Messi con xGoT>0.1, stagione 2020/21 (esclusi i rigori).

[ec_store modelnumber=”REA002-EEN-2101″]

Valutazione dei portieri: goals prevented

Gli xGoT hanno un’altra, forse più importante applicazione, in quanto permettono di misurare quella che è probabilmente la più importante caratteristica di un portiere: l’abilità di fermare i tiri. Se un portiere concede meno gol di quelli predetti dal modello di xGoT, significa che riesce a parare tiri ben piazzati e/o da posizioni pericolose (ossia con xG iniziale alto). La differenza fra xGoT e gol concessi viene quindi chiamata Goals prevented (gol impediti).

Questa statistica incorona Jan Oblak come il miglior portiere nel calcio di elite, sia in termini assoluti, con 34.9 goals prevented (dalla stagione 2017/18) sia dopo la normalizzazione in base al totale di xGoT affrontati, con 0.28 goals prevented per xGoT (0.35 nell’ultima stagione).


Tiri con xGoT>0.1 affrontati da Oblak nel 2020/21.

Expected Passes (xPass)

Cosa sono gli Expected Passes?

Usando il data set di passaggi già utilizzato per il modello di xA, abbiamo costruito anche un modello di probabilità di riuscita del passaggio, che chiamiamo Expected Pass o xPass. Il modello è (avete indovinato) una regressione logistica su milioni di passaggi, usando informazioni posizionali e contestuali analoghe al modello di xA, ma prendendo come variabile target non se il passaggio è un assist, ma semplicemente se viene completato o no.

Questa metrica ci dice se un giocatore esegue regolarmente passaggi più difficili (con xPass basso) ma più pericolosi, con un tasso di successo superiore alla media, dando luogo a un saldo positivo fra passaggi riusciti e xPass totali. Nel 2020/21, il miglior centrocampista in questa statistica è stato Toni Kroos, con una sovraperformance percentuale sugli xPass del 5.2%. La lista dei top 10 include anche Marco Verratti, una delle chiavi nella vittoria recente della nazionale Italiana a EURO 2020, ed il giocatore con più passaggi riusciti (93.7) per 90 minuti nella scorsa stagione.

Top 10 centrocampisti per sovraperformance sugli xPass nel 2020/21 (campionati top 7, minimo 900 minuti giocati).

Completed passes start and end locations for Toni Kroos (2020/21 season, corners excluded). La direzione di gioco è da sinistra verso destra.

[ec_store modelnumber=”REA003-EEN-2107″]

Per qualsiasi commento, richiesta o domanda, non esitate a scriverci su research@soccerment.com.

it_ITItalian