Saut à la perche , analyse bayésienne, qui sera vainqueur - Cartaj

Saut à la perche : qui sera sur le prochain podium ?

Une discipline à part

Le rapport entre le saut à la perche et l'analyse bayésienne ? Je vous l'explique.
Je m'en souviens comme si c'était hier : Renaud Lavillenie remporte le concours de saut à la perche des JO de Londres en 2012. J'ai encore des frissons quand je revois les images !

Le plus dingue, c'est que 9 ans plus tard, Lavillenie est encore sur le circuit et il est même 4ème au classement mondial désormais dominé par le suédois Armand Duplantis, qui détient le record du monde (6m15 en extérieur, réalisé en septembre dernier, soit 10 cm de plus que Lavillenie, passé en 2015).

Quelles sont ses chances aux prochains JO ?

Lavillenie est plutôt en forme : il a passé 6m06 en indoor fin février (il détenait le record du monde indoor à 6m16 depuis 2014 jusqu'à ce que le prodige suédois passe franchisse 6m18 en février 2020) et il se prépare donc aux JO de Tokyo (on va partir du principe qu'ils se tiendront, n'est-ce pas ! N'est-ce pas ??).

Mais sa position de 4ème derrière Duplantis et l'américain Kendricks et le polonais Lisek font de lui un outsider non seulement pour le titre suprême, mais même pour le podium.

Nous avons cherché à établir les chances de podium pour chaque athlète du top 20, en se basant sur les performances réalisées en extérieur en 2019 et 2020. L'objectif n'est pas tant de faire une bonne prédiction que de mettre en œuvre des méthodes d'analyse bayésienne. Notamment, la démarche adoptée est assez naïve dans le sens où elle ne prend pas en compte la montée en puissance des athlètes en cours de saison et l'effet d'émulation dans les grandes compétitions.

L'analyse bayésienne en 2 mots

Le principe de l'analyse bayésienne consiste à modéliser un phénomène aléatoire à partir de lois paramétriques (par exemple la loi normale) dont les paramètres eux-mêmes sont considérés comme aléatoires.

On part d'une distribution a priori ("prior") de ces lois sur les paramètres et les données permettent d'ajuster ces distributions ("posterior") qui tiennent alors compte à la fois du "prior" et des observations.

L'un des avantages de cette approche bayésienne est de pouvoir mener des calculs même avec peu de données. En ce qui concerne le cas d'usage, les données sont assez peu nombreuses, chaque athlète réalise environ une vingtaine de concours par an en extérieur (on compte les meetings ici mais on pourrait réduire les observations aux principaux championnats).

Dans notre cas, on va chercher à modéliser la distribution de la hauteur de barre atteinte par chaque athlète et par simulation, réaliser des statistiques, notamment sur le rang.

Les données

Nous avons récupéré les résultats du top 20 au classement mondial sur le site worldathletics uniquement pour les compétitions en extérieur. Nous n'avons retenu que les scores des phases finales. Nous avons aussi retiré certaines observations avec des hauteurs trop faibles alors que le champion est arrivé premier du concours. Par exemple, nous n'avons pas retenu la hauteur à 5.55 de Duplantis pour gagner la compétition (LSU Alumni Gold à Baton Rouge le 20 avril 2019) : visiblement, il n'a pas forcé son talent pour gagner, et la performance de ce jour n'est pas représentative de son niveau (une semaine plus tard, dans la même ville, il gagne en passant 5m94 !).

A ce stade, nous avons une base de données de 433 résultats pour 20 athlètes, soit à peine 11 concours significatifs par an en moyenne.

Le graphe ci-dessus présente les données observées, il s'agit d'un équivalent lissé d'un histogramme. Vous noterez à gauche la présence d'observations autour de 4,5m. Il s'agit en fait d'un prétraitement de notre part dans le cas où l'athlète n'est pas parvenu à franchir sa première hauteur. Nous avons mis arbitrairement une valeur basse de 4.5m plutôt que 0 ou encore pire, supprimer ces observations.

Il faut en revanche tenir compte de ces échecs qui arrivent rarement mais à presque tous de temps en temps et que dans ce cas.

Les modèles bayésiens

Nous avons construit un modèle combiné commun à chaque athlète :

Le nombre d'échecs sur les N concours suit une loi binomiale de paramètre p
Pour la performance des barres atteintes, on transforme les données en ramenant les valeurs à l'intervalle 0 (= moins bonne performance sur 2 ans) à 1 (moyenne du record personnel et de la meilleure performance sur 2 ans). La distribution des hauteurs atteintes suit alors une loi béta de paramètres a et b.

Il est important de prendre une loi de distribution bornée pour éviter de se retrouver avec des valeurs absurdes au stade des simulations, par exemple des sauts à plus de 7m. En pratique, on a légèrement étendu la plage pour que les valeurs minimales et maximales soient strictement incluses dans l'intervalle possible (pour des raisons numériques). On a élargi les plages de 1 cm.

Les distributions a priori des paramètres p, a et b sont des lois uniformes

Pour p, entre 0 et 0.5. Les données suggèrent une valeur moyenne d'environ 0.06
pour a et b, entre 0 et 100. Ici on reste très large pour permettre toute sorte de forme de distribution, ce qui est l'intérêt de la loi béta.

Nous avons utilisé le package R "rjags" qui utilise lui-même la bibliothèque JAGS codée en C++. Il s'agit de méthodes basées sur des simulations Monte-Carlo de chaines de Markov. Pour une introduction à l'analyse bayésienne et à RJAGS, on peut (comme moi) se former sur Datacamp.

Résultats

On dispose alors des distributions de probabilité, pour chacun des 20 athlètes, pour 2 variables aléatoires.

Probabilité d'échec (aucune hauteur franchie)

On est donc parti d'une loi uniforme entre 0 et 50%. Sur la base des données (en l'occurrence, 1 échec en 24 concours), on obtient une courbe de distribution qui a la forme ci-dessus. La valeur la plus probable est de 4%, ce qui correspond aux données. Mais du fait du faible nombre de données, on garde une distribution assez étendue.

Hauteurs franchies en cas de succès

L'intervalle possible est (par hypothèse de modélisation) propre à chaque athlète. Duplantis est largement devant ses concurrents. Lavillenie a plus de chances de faire des sauts honorables mais il est peu probable qu'il franchisse 5.9 mètres (par hypothèse de modélisation, on a considéré qu'il pouvait au mieux faire 5.96, 1cm de mieux que la moyenne de son record à 6m05 et son meilleur saut depuis 2 ans à 5m85).

Médaillable ?

In fine, on utilise les simulations (20 000 valeurs simulées par athlètes) pour calculer 20 000 scénarios de performance (on met la hauteur à 0 si on simule un échec) et pour chacun des 20000 cas, on calcule le rang de la performance de chacun parmi les 20 candidats. On sort alors la proposition de cas où chaque athlète a eu la plus forte hauteur, la 2nde meilleur et la 3ème et on obtient pour chacun la probabilité de remporter l'or, l'argent ou le bronze.

Les simulations donnent alors Armand Duplantis large favori avec 50% de remporter l'or, 21% l'argent et 10% le bronze. Kendriks et Lisek sont logiquement solides outsider. Le premier a 25% de gagner, le second 11% et leur chance de médaille atteint 58% pour Kendricks et 36% pour Lisek.

Renaud Lavillenie a environ 3% de chance de gagner et peut espérer une médaille avec 20% de chance. On notera que son frère Valentin, actuellement 7ème mondial, a un peu plus de 6% de chance de repartir médaillé. Nielsen est aussi un prétendant au titre, avec 6% de chance de victoire et environ 30% de chance de médaille.

Ces résultats sont finalement peu sensibles à l'hypothèse de la hauteur maximale supposée. Ainsi, si on pense que Lavillenie (Renaud) peut de nouveau monter au dessus de 6m, alors ses chances de titre olympique passent à 4.5% tandis que s'il n'est pas en mesure de passer 5.85, alors ses chances de l'Or sont réduites à 1%. Ses chances d'être sur le podium sont sensiblement les mêmes (environ 20%).

Les premiers résultats des athlètes avant les JO permettront de mettre à jour ce modèle à la fois en enrichissant la base de données des performances mais en mettant éventuellement à jour le potentiel de saut.

Comme évoqué, le modèle ne tient pas compte des performances indoor, qui donnent un bon indicateur de forme avant de débuter une saison extérieur, ni la trajectoire de progression (ou de déclin) des athlètes, ce qui permettrait de voir arriver une nouvelle génération et un potentiel nouveau prodige bien décidé à se faire une place au panthéon de cette discipline. L'approche bayésienne permet de prendre en compte ces variables explicatives ... que je mettrai en œuvre peut-être une prochaine fois !

Et pour ceux qui disent que c'est plus facile de coder que de sauter ... et bien c'est vrai !

Vous avez apprécié cette article sur l'analyse bayésienne ?
Pour plus d'informations sur mes compétences data & mobilités, je vous invite à à consulter mon parcours.

Cartaj

Faites parler votre data et placez l’usager au cœur de votre stratégie de croissance

Valorisez vos données, placez le voyageur au cœur de votre stratégie, pour atteindre vos objectifs

Il est temps d’offrir une mobilité collective agile, efficace et durable !

Parlons Mobilité

Valoriser vos données

Brillez auprès de vos clients AOM

Réservez un rendez-vous

RDV Conseil

Expertise Data & Mobilité

3 prestations pour analyser, prévoir et mettre en place des plans d’actions pertinents

Mes prestations >