15 novembre 2022
Le duel : origine et présentation
Dans quelques jours, une nouvelle coupe du monde de Football va démarrer. Comme dans beaucoup d’entreprises, c’est l’occasion d’organiser entre collègues un nouveau concours de pronostics. Chez EURODECISION, nous utilisons le site MonPetitProno.com pour gérer notre concours.
Pour la dernière coupe du monde en 2018, j’avais terminé à la 2nde place du concours EURODECISION grâce à l’utilisation de LP-Pronos, un algorithme de pronostics que j’avais développé pour l’occasion. Je suis confiant sur le fait que cette année, LP-Pronos va de nouveau être sur le podium et même remporter la victoire face aux pronostiqueurs humains.
Sûr de moi, je commence à taquiner mes collègues sur le groupe Teams consacré au concours : « Alors, prêts à se faire battre par un algorithme ? LP-Pronos va vous ridiculiser une nouvelle fois ». Et là, un stagiaire actuellement en année de césure chez EURODECISION, intervient : « Je pense pouvoir faire aussi bien et peut-être même mieux en utilisant du machine learning ». Renan, son maitre de stage et expert sur le sujet, le tempère : « Oui on doit pouvoir faire aussi bien mais cela suppose notamment d’avoir suffisamment de données ».
Après quelques recherches sur Internet, des données sont trouvées :
- Un historique des précédentes coupes du monde de 1930 à 2022, soit environ 900 matchs avec la liste des joueurs ayant participé à chacun de ces matchs (source kaggle.com FIFA World Cup),
- Un historique de 44000 matchs internationaux de 1872 à 2022 (source : kaggle.com international-football-results-from-1872-to-2017),
- L’évolution du classement FIFA des équipes nationales de 1992 à 2022 (source : fifa.com),
- Les points attribués par MonPetitProno lors de la dernière coupe du monde.
Rassurés par ces données, Renan et notre jeune stagiaire décident de développer un ML-Pronos capable selon eux de rivaliser avec LP-Pronos.
Qui de LP-Pronos ou ML-Pronos va remporter ce duel de pronostics ? Ces algorithmes feront ils mieux que les humains ? Rendez-vous dans quelques jours pour découvrir les premiers résultats de ce duel.
25 novembre 2022
ML-Pronos se rassure et LP-Pronos peine à démarrer le match
Et c’est parti ! La Coupe du Monde a démarré avec déjà 16 matchs passés sur 64. Certains favoris à la victoire se sont rassurés comme l’équipe de France, l’Angleterre ou l’Espagne. A l’inverse, d’autres équipes sont plus inquiétantes comme pour l’Allemagne ou l’Argentine. Mais tout est encore possible. Une coupe du Monde est un long parcours.
Dans notre duel, nous sommes dans la même situation. ML-Pronos s’est rassuré et pointe à la 3e place du classement « MonPetitProno EURODECISION » sur 14 participants. LP-Pronos, quant à lui, se trouve en milieu de classement à la 7e place.
Notez la présence de 2 participants un peu particuliers : Petit_Joueur et Gros_Joueur. Il s’agit de 2 participants « virtuels » servant de référence. Petit_Joueur mise toujours sur le résultat le plus probable (petit cote) et pronostique le plus petit score. Par exemple, la France était ultra favorite contre l’Australie, Petit_Joueur pronostique donc 1-0 pour la France. Gros_Joueur au contraire mise toujours sur le résultat le moins probable (grosse cote). Toujours pour France-Australie avec une grosse cote pour une victoire de l’Australie, Gros_Joueur a donc pronostiqué 0-1 pour l’Australie.
Voilà pourquoi Gros_Joueur est largement en tête de notre classement. Il a gagné 73 points grâce à la victoire du Japon sur l’Allemagne mais surtout 280 points avec la victoire de l’Arabie Saoudite contre l’Argentine. A l’inverse, Petit_Joueur est assez mal classé. Cela montre bien que les premiers matchs de cette coupe du Monde ont amené beaucoup de surprises.
Pour revenir sur la performance décevante de LP-Pronos à ce stade, cela s’explique en partie par le fait que sur cette Coupe du Monde, les résultats de ces premiers matchs défient les statistiques. Prenons l’exemple des matchs nuls, en 2014, il n’y avait eu qu’un seul match nul 0-0 sur les 16 premiers matchs. En 2018, il y avait eu 3 matchs nuls mais aucun 0-0. Cette semaine, nous avons déjà assisté à 4 matchs nuls 0-0. Par ailleurs, le nombre total de buts est pour l’instant plus faible, même si on compte les 15 buts sur seulement 2 matchs (6-2 Angleterre-Iran et 7-0 Espagne- Costa Rica). Ainsi, 32 buts ont été marqués sur les 16 premiers matchs alors qu’il y en avait eu 47 en 2018 et 38 en 2014. Est-ce le fait que cette Coupe du Monde se joue en hiver ? Que les équipes n’ont pas eu beaucoup de temps de préparation ? Qu’il fait trop froid dans les stades ? Je vais laisser les experts du journal L’Equipe nous donner l’explication.
Mais LP-Pronos dans tout ça ? si vous avez lu le début de l’article expliquant le fonctionnement de LP-Pronos, vous avez sûrement compris qu’il se base beaucoup sur les statistiques des précédentes Coupes du Monde. Avec ces résultats un peu « hors normes », il n’arrive pas à bien pronostiquer. A contrario, ML-Pronos même en ayant fait son apprentissage sur l’historique des matchs internationaux semble pour le moment mieux extrapoler sur des configurations nouvelles. La semaine prochaine, nous reviendrons plus en détails sur le fonctionnement de ML-Pronos.
5 décembre 2022
Espoir et désespoir
Un algorithme prend toujours des décisions rationnelles en fonction de règles qui ont été codées dans ses entrailles. Un être humain quant à lui peut faire des choix peu rationnels surtout s’il est au pied du mur ou plutôt au pied du classement. Ainsi, désespéré et n’ayant plus rien à perdre, il tente des pronostics peu probables et ça marche, il suffit de constater le très bon score de « Gros Joueur » ou encore ce salarié d’EURODECISION qui est remonté de la 12e place à la 4e place en misant avec succès sur la victoire du Japon contre l’Espagne ou de la Corée du Sud contre le Portugal.
Dans cette coupe du monde pleine de surprises, difficile pour des algorithmes de prédire l’improbable. Sur les derniers matchs de poule, LP-Pronos s’en est un peu mieux sorti que ML-Pronos qui s’est effondré dans le classement :
Mais au fait, comment fonctionne ML-Pronos ? Renan et son stagiaire nous expliquent tout ça :
ML-Pronos, c’est un modèle de Machine Learning pour faire des pronostics. Machine Learning, ça veut dire apprentissage à partir de données.
Donc, il faut déjà des données. Et ça, on en a ! On a trouvé l’historique des matchs internationaux de football depuis 1870 (!). On a croisé ça avec les classements FIFA des équipes au moment où ces matchs ont été joués. On a enrichi les données en créant des variables pour indiquer par exemple si une équipe avait déjà été championne du monde. On a nettoyé, sélectionné, fusionné, testé ces données. Cela s’appelle le feature engineering.
Ensuite, il faut un modèle. Pour cela, on a mis nos données en entrée de différents algorithmes. Ces modèles ont ajusté leurs paramètres pour retrouver les bons scores, c’est ça qu’on appelle l’apprentissage. On a choisi le meilleur modèle, c’est-à-dire celui qui prédisait au mieux les scores passés. C’est le SVM (Support Vector Machine) qui s’est montré le plus performant dans notre cas. Et voilà, ML-Pronos était prêt à se confronter à la réalité…
Mais la réalité s’est révélée très différente de sa base d’entraînement. On est confronté ici à un “drift” du modèle. Pour contrecarrer cet effet, on pourrait par exemple le réentraîner au fur et à mesure des matchs. Et avec le temps, en ingérant de plus en plus données, ML-Pronos pourrait passer au niveau supérieur en apprenant, pourquoi pas, la liste des joueurs et leurs stats, les caractéristiques des pays… Pour ça, rendez-vous en 2026 !
19 décembre 2022
Un vainqueur et un vaincu
Et voilà, cette Coupe du Monde au Qatar vient de se terminer avec la finale hier opposant la France à l’Argentine. Malheureusement, il n’y a qu’un seul vainqueur et ce n’est pas la France.
Dans notre duel d’algorithmes de pronostics, on connait également le grand gagnant : LP-Pronos, qui marque notamment un triplé sur les 3 derniers matchs. Je vais peut-être le renommer “Mbappé Pronos” !
ML-Pronos n’a pas démérité et a maintenu le rythme de LP-Pronos sur les matchs de la phase finale.
La victoire de LP-Pronos reste une petite victoire car 3 humains ont réussi à faire mieux. Mais ces deux algorithmes ont quand même montré qu’ils peuvent faire presque aussi bien que les experts footballistiques d’EURODECISION.
Le grand gagnant de cette ligue EURODECISION est “Gros_Joueur” qui a largement profité des résultats surprise lors des poules. Par contre, dans les matchs de phase finale, il a gagné peu de points (seulement 2 bons pronostics). “Petit_Joueur” se place quant à lui au milieu du classement même s’il obtient le meilleur nombre de bons pronostics.
A titre de comparaison, parmi l’ensemble des joueurs de MonPetitProno, le champion toutes catégories a obtenu 2057 points (31 bons pronostics sur 64 matchs dont 12 scores exacts). S’agit-il d’un expert en chair et en os ou de pronostics basés sur une autre méthode mathématique ?
Rendez-vous dans 4 ans pour la Coupe du Monde 2026 aux USA/Mexique/Canada, pour laquelle nous comptons bien refaire concourir nos algorithmes de pronostics de foot !