Waarom Londen 2012 "statistieken" toont noodzaak voor Big Data class=

Waarom de "statistieken" van Londen 2012 de noodzaak van Big Data aantonen

Doug Hadden, VP Producten

Er is veel belangstelling voor sportstatistieken, gepopulariseerd door het boek (en de film) Moneyball. De premisse van Moneyball is dat de traditionele maatstaven die in de sport worden gebruikt vaak onjuist zijn. De komst van "omvangrijke gegevens"en big data technieken zoals visualisatie beloven onze vooroordelen over sport te veranderen. De  Olympische Spelen per hoofd van de bevolking website is een voorbeeld hiervan dat laat zien (op dit moment) dat Grenada het meest succesvolle land is in Londen 2012 op basis van bevolking Ik heb veel tweets en opmerkingen hierover opgemerkt. En, er is een mooie kaart visualisatie.

Natuurlijk, het is allemaal prietpraat en heeft weinig te maken met de werkelijkheid. Het komt niet eens door de statistische reuktest.

Dat zijn geen big data

De kracht van big data is de mogelijkheid om meer informatie (volume) uit verschillende bronnen (verscheidenheid) met meer snelheid (snelheid) te analyseren. Toch toont deze analyse een analyse van zeer weinig informatie (alleen medailles) uit één bron (Olympische medailles) en een handvol per dag. En, BBP per hoofd van de bevolking en bevolking zijn zeer geaggregeerde "weinig gegevens" constructies.

Wat zou een big data-analyse van het succes van Londen 2012 inhouden?

  • Alle Olympische prestaties worden vergeleken binnen categorieën - 5e worden in een onderdeel kan een betere prestatie zijn dan 2e worden in een ander onderdeel.
  • Biometrische informatie zoals afgelegde afstand, hartslag enz.
  • Aantal atleten voor elke sport wereldwijd
  • Vertekening van de resultaten van teamsporten die landen met een grotere bevolking bevoordelen, sporten met meerdere vergelijkbare wedstrijden (bv. zwemmen vs. hardlopen) en sporten die duurdere uitrusting en begeleiding vereisen.
  • Vertekening van de resultaten wanneer één enkele overwinning noodzakelijk is om Grenada (of Dominica) naar nummer 1 te stuwen.
  • Mogelijke invloed van factoren zoals het trainingsseizoen, jetlag, hoogte
  • Vertekening van de resultaten op basis van de mate van beoordeling per sport
  • Belang van Olympische wintersportresultaten

Statistiek en bevestigingsvooringenomenheid

De "kleine gegevens"-analyse helpt onze vooroordelen te bevestigen. We kunnen de informatie herschikken om het vooroordeel te bevestigen dat Canada beter presteert dan de Verenigde Staten. Of we kunnen besluiten landen te rangschikken, zoals de pers in Canada doet, op basis van gewonnen medailles. Dit brengt Canada op de 12e plaats, vanaf dit schrijven. (Net als NBC). Of, zoals de BBC, wegen elke medaille om Canada op de 32e plaats te zetten. Wij kunnen dan de maatregel kiezen die ons standpunt het meest ondersteunt.

Big data gaat over het elimineren van de theorie (of het verminderen van het effect van de theorie) om tot inzicht te komen. Niet je mening vormen en steun vinden in de statistieken. Dit is sport verlagen tot het niveau van politieke campagnes!

Onderwerpen

Neem contact op met