Ci hanno provato in molti, non ultima Goldman Sachs. Ma davvero si può prevedere l’andamento dei Mondiali di calcio ormai alle porte? Un’analisi alternativa combina variabili calcistiche e quotazioni dei bookmakers. Comunque, non lascia speranze agli azzurri.
IL MODELLO PER PREVEDERE CHI VINCE
Chi alzerà la coppa del mondo? In questi giorni si affollano le predizioni di molti centri di ricerca, tra cui spicca Goldman Sachs che prevede una vittoria del Brasile e l’eliminazione dell’Italia ai quarti di finale, proprio a opera dei verde-oro.
Noi abbiamo lavorato a un modello statistico basato sull’analisi fattoriale di un insieme di variabili che descriveremo nel prossimo paragrafo, combinando i dati con le quote delle principali agenzie di bookies per introdurre un elemento di incertezza nella fase a gironi.
Lo studio si avvale di un dataset che, per avere informazioni utili su tutte e trentadue le nazionali partecipanti, si è concentrato sul periodo 2000-2014, con più di 130 match analizzati per ogni squadra.
Su questo arco di tempo, abbiamo raccolto informazioni rispetto a un gran numero di variabili: il numero di partite giocate (amichevoli e non), il numero di punti fattirelativo alle stesse partite, dei goal fatti e subiti, quello di ammoniti ed espulsi, il ranking Fifa di ogni nazionale, la media dei goal fatti dagli attaccanti, dai centrocampisti e dai difensori convocati per partita giocata; l’età media della rosa; il valore di mercato in milioni di euro della squadra; e, infine, la media delle quotazioni finali delle principali agenzie di bookies. (1)
La tecnica di analisi utilizzata si serve di un tipico strumento della statistica multivariata: l’analisi fattoriale. Si procede, di fatto, all’aggregazione di dati multi-dimensionali per la costruzione di un indicatore sintetico. L’idea è che un insieme di variabili facenti riferimento alle performance calcistiche condividano un fattore latente, nel nostro caso la forza e le potenzialità di una squadra.
L’analisi fattoriale consente di calcolare il peso di ciascuna delle variabili aggregate nel contribuire al fattore latente. In questo caso, l’indicatore che emerge dall’analisi è un unico numero (per ciascuna squadra) a valori crescenti, dalla squadra meno forte a quella più forte.
Il primo fattore latente contribuisce a spiegare quasi il 40 per cento della variabilità complessiva di tutti i dati aggregati, il che rappresenta un risultato soddisfacente, data la costruzione di un indicatore sintetico. Nella tabella seguente sono riportate le variabili con i relativi pesi.
Tabella 1 – Pesi risultanti dall’analisi fattoriale
Ciascun peso va interpretato come il contributo relativo della variabile alla forza di una squadra: tutti i segni delle variabili corrispondono alle attese.
Interessante il peso più alto dei goal segnati dai centrocampisti, in media, rispetto a quello dei goal degli attaccanti, e anche il valore elevato del valore di mercato della squadra.
Abbiamo simulato, poi, l’andamento del mondiale servendoci degli scores ottenuti per ciascuna nazionale dall’analisi fattoriale, introducendo una seconda variabile nella fase a gironi.
Oltre all’indicatore dell’analisi fattoriale, infatti, abbiamo utilizzato non soltanto le quotazioni ufficiali dei bookies per la vittoria finale, ma anche quelle per la vittoria del girone e per il passaggio ai sedicesimi di finale.
Abbiamo poi combinato i risultati dell’analisi fattoriale con le quotazioni, dando ai primi un peso del 70 per cento e alle seconde un peso del 30 per cento: in parole povere, a quel che dicono i numeri abbiamo aggiunto un coefficiente ‘fortuna e incertezza’ catturato proprio dalle scommesse dei bookies.
IL RISULTATO
Sulla base dell’analisi, ecco dunque il tabellone con i vari passaggi:
Figura 1 – Il tabellone
Insomma, purtroppo il nostro modello non dà speranze agli azzurri, addirittura eliminati da un sorprendente Giappone.
Dalle semifinali in poi, invece, niente di particolarmente sorprendente: stesse squadre individuate da Goldman Sachs ma con la Spagna vittoriosa.
Va detto che il nostro risultato dà un punteggio, per le due finaliste, davvero vicino, il che ci porta ad azzardare: sfida all’ultimo rigore?
Mai come in questo caso, speriamo di sbagliarci.
(1) Sono tutti dati ricostruibili attraverso il web. I punti sono così assegnati: vittoria: 3 punti; pareggio: 1 punto; sconfitta: 0 punti. Per calcolare i goal fatti secondo il ruolo, abbiamo considerato la rosa ufficiale di 23 giocatori di ciascuna nazionale e utilizzato la fonte transfermrkt.it e soccerway.it. Per il valore della squadra la fonte è sempre transfermrkt.it. Bwin, Bet365, Sisal MatchPoint, Eurobet, Better, BetClick, PaddyPower e William Hill sono le agenzie di scommesse da cui abbiamo ricavato le quotazioni.
Lavoce è di tutti: sostienila!
Lavoce.info non ospita pubblicità e, a differenza di molti altri siti di informazione, l’accesso ai nostri articoli è completamente gratuito. L’impegno dei redattori è volontario, ma le donazioni sono fondamentali per sostenere i costi del nostro sito. Il tuo contributo rafforzerebbe la nostra indipendenza e ci aiuterebbe a migliorare la nostra offerta di informazione libera, professionale e gratuita. Grazie del tuo aiuto!
Ciro Pastore
Interessante studio, ma fortunatamente la realtà (come sempre) sarà ben diversa perché è solo parzialmente basata sui risultati del passato e sulle aspettative.
andrea
Con il dovuto rispetto, questa non è statistica una multivariata.
Paolo
Se davvero le cose stessero così, il Mondiale di calcio e probabilmente qualsiasi gara sportiva si potrebbero giocare a tavolino (così vorrebbero i cronisti sportivi, che domandano sempre chi vincerà). Ma nello sport, così come in tante altre cose, la statistica e la valutazione spiegano bene ciò che è avvenuto, non quello che avverrà. Teniamo comuque presente questa previsione e confrontiamola con l’andamento reale. Chissà…
Alessandro
Alcuni esempi di ciò che le statistiche non avrebbero mai potuto prevedere prima dei mondiali di calcio, che ci spiegano perché un simile modello non può funzionare:
1) Schillaci che da (quasi) sconosciuto diviene capocannoniere nei mondiali ’90;
2) Paolo Rossi che da (quasi) non allenato (per calcio scommesse) fa lo stesso in quelli del 1982;
3) Zico che sbaglia il rigore nel 1986 (contro la Francia)
4) Maradona che nello stesso anno segna di mano e l’arbitro (solo lui) non se ne accorge,
5) la testata di Zidane (uno dei giocatori più corretti
della Fifa) a Materazzi che ci fa vincere il mondiale nel 2006.
No, le variabili sono troppe e, ad oggi, nessun modello statistico è in grado di catturarle.
Comunque complimenti a chi ci prova.
AM
Non credo proprio che la testata di Zidane sia stata determinante nel successo dell’Italia.
Fab
Zidane è stato espulso più volte per episodi simili in carriera.
Giuseppe
In qualsiasi modo finisca (e speriamo che finisca in fretta), restiamo in attesa che qualcuno nel governo, o nel Coni, ci spieghi lo stipendio dei componenti del cosiddetto staff tecnico della squadra italiana, a cominciare da quello dell’allenatore, e a seguire ci renda noti gli stipendi dei dirigenti delle Federazioni sportive pagate dall’erario. Il resto è divertissement.
simone angioloni
Dalla tabella non si capisce come il segno delle variabili sia quello atteso. La variabile ammoniti-espulsi ha lo stesso segno della variabile ranking Fifa (negativo) e la variabile media goal fatti ha lo stesso segno della variabile media goal subiti (positivo).
Luciano Canova
La tabella è riportata male, credo per ragioni di grafica del sito. Media goal subiti ha segno negativo. Il ranking Fifa è giustamente col segno meno: essendo la classifica ordinata dalla squadra più forte (1) a quella più debole (32), numeri significano meno forza della squadra. Questo è un puro divertissement: siamo ben consci che le statistiche (buon per il gioco del calcio) non colgono appieno l’imprevedibilità di un gioco con tante variabili. Forse l’esercizio ci piace farlo anche per questo. [Per esempio: non teniamo in alcun modo conto del clima, che in Brasile giocherà un ruolo chiave]
simone angioloni
Grazie mille per il chiarimento.
AM
I risultati sembrano probabili dato che emergono squadre forti. L’Italia con questa squadra e con le assenze sicuramente non ha grandi possibilità, ma non penso proprio che a eliminarla saranno i giapponesi.
Marco
Non sono in grado di entrare troppo nel tecnico ma c’è evidentemente un errore nel metodo. Per quanto io tifi contro l’Italia mi pare quasi impossibile che perda contro il Giappone. Probabilmente il vostro metodo si basa troppo su parametri che valgono a livello locale: i giapponesi probabilmente giocano la maggior parte delle partite con altri asiatici per cui hanno molti valori alti e risultano sopravvalutati a livello mondiale. Tuttavia Giappone-Italia è l’unico risultato che “sembra” inverosimile. Chissà che non sia solo una mia impressione.
Alessandro
Leggendo l’articolo sembrerebbe l’assenza completa di una valutazione sui dati storici..almeno degli ultimo 10 mondiali. Come fate a definire l’analisi affidabile se non l’avete testata sui dati degli ultimi mondiali? Sbaglio o una carta di controllo è basata sulle serie “in controllo”? Dove sono le vostre serie in controllo?
Filippo Gregorini
Sono sicuro che secondo qualsiasi “modello statistico” l’Inter avrebbe avuto zero possibilità di eliminare il Barcellona nella semifinale di Champions del 2010.
Giovane
Spagna campione del mondo. Prima partita Spagna-Olanda 1-5. Addio primo posto per gli spagnoli. La presunta finale ”Spagna-Brasile” si gioca già agli ottavi.
Modelli quantitativi…
mrai
Un bell’esercizio per dimostrare quanto possono essere sbagliate le conclusioni della statistica se chi la usa non è capace. Questo è un divertissement, ma quando si parla di medicina e, con una conclusione pseudo-scientifica, si cambia la vita delle persone, ci vorrebbe meno leggerezza.
stefano
Spagna-Olanda 1-5
Spagna-Cile 0-2
ne parliamo?
ignorante
Ma questi esperti ignorano sempre la prima legge del calcio: “La palla è rotonda!”
Mundiao
Temo il modello sia da rivedere.
Lorenzo Luisi
Si capiva che il modello era solo un esercizio teorico (forse il fattore climatico e/o quello della freschezza atletica erano da considerarsi). In ogni caso credo che chiunque abbia indovinato al 50% (anche con il testa o croce si avevano praticamente le stesse possibilità) le squadre che passavano il turno iniziale.
enzo
Ecco, oggi possiamo dire “il modello è sbagliato”. (qualcuno dirà: “No il modello è giusto, sono le squadre a non averlo capito..”). Tuttavia se ne trae un insegnamento: mai fidarsi dei modelli, soprattutto sulle questioni più importanti di un mondiale di calcio.