Pourquoi les "statistiques" de Londres 2012 montrent le besoin de Big Data ?

Pourquoi les "statistiques" de Londres 2012 montrent la nécessité des Big Data

Doug Hadden, VP Produits

Les statistiques sportives ont suscité beaucoup d'intérêt, popularisées par le livre (et le film) Moneyball. Le principe de Moneyball est que les mesures traditionnelles utilisées dans le sport sont souvent incorrectes. L'avènement de "big data"et les techniques de big data telles que la visualisation promettent de changer nos idées préconçues sur le sport. Les  Jeux olympiques par habitant Le site web est un exemple qui montre (en ce moment) que la Grenade est le pays le plus performant à Londres 2012 sur la base de la population. J'ai remarqué beaucoup de tweets et de commentaires à ce sujet. Et il y a une belle visualisation de la carte.

Bien sûr, tout cela n'est que du bla-bla et n'a pas grand-chose à voir avec la réalité. Le test de l'odeur des statistiques ne passe même pas.

Ce n'est pas du big data

La force du big data réside dans la capacité à analyser plus d'informations (volume) provenant de sources différentes (variété) et à plus grande vitesse (vélocité). Pourtant, cette analyse montre une analyse de très peu d'informations (seulement des médailles) provenant d'une seule source (médailles olympiques) et d'une poignée par jour. De plus, le PIB par habitant et la population sont des concepts très agrégés de "petites données".

Quels seraient les éléments à prendre en compte dans une analyse des données de la réussite de Londres 2012 ?

  • Toutes les performances olympiques sont comparées au sein d'une même catégorie - une 5e place dans une épreuve peut être une meilleure performance qu'une 2e place dans une autre épreuve.
  • Informations biométriques telles que la distance parcourue, la fréquence cardiaque, etc.
  • Nombre d'athlètes pour chaque sport dans le monde
  • la distorsion des résultats des sports d'équipe qui favorisent les pays les plus peuplés, les sports qui comportent plusieurs compétitions similaires (par exemple, la natation par rapport à la course à pied) et les sports qui nécessitent un équipement et un encadrement plus onéreux.
  • Fausser les résultats lorsqu'une seule victoire est nécessaire pour propulser la Grenade (ou la Dominique) à la première place.
  • Impact potentiel de facteurs tels que la saison d'entraînement, le décalage horaire, l'altitude
  • Inégalité des résultats en fonction du degré de jugement par sport
  • Importance des résultats des sports olympiques d'hiver

Statistiques et biais de confirmation

L'analyse des "petites données" permet de confirmer nos préjugés. Nous pouvons réorganiser l'information pour confirmer le préjugé selon lequel le Canada est plus performant que les États-Unis. Nous pouvons aussi décider de classer les pays, comme le fait la presse canadienne, en fonction des médailles remportées. Le Canada se retrouve ainsi au 12e rang à l'heure où nous écrivons ces lignes. (Tout comme NBC). Ou bien, comme la BBC, pondère chaque médaille pour placer le Canada en 32e position.. Nous pouvons alors sélectionner la mesure qui soutient le mieux notre point de vue.

Le Big Data, c'est théorie de l'élimination (ou réduire l'impact de la théorie) pour parvenir à la compréhension. Il ne s'agit pas de se faire une opinion et de trouver un appui dans les statistiques. C'est ramener le sport au niveau des campagnes politiques !

Thèmes

Contact