Por que as "estatísticas" de Londres 2012 mostram a necessidade de uma classe de Big Data=

Por que as "estatísticas" de Londres 2012 mostram a necessidade de Big Data

Doug Hadden, VP de Produtos

Tem havido um grande interesse nas estatísticas esportivas popularizadas pelo livro (e filme) Moneyball. A premissa do Moneyball é que as medidas tradicionais usadas nos esportes geralmente são incorretas. O advento do "big data" e técnicas de big data, como a visualização, prometem mudar nossos preconceitos sobre os esportes. As  Olimpíadas per capita O site da Web é um exemplo disso, mostrando (no momento) que Granada é o país mais bem-sucedido em Londres 2012 com base na população. E há uma bela visualização de mapa.

É claro que tudo isso é uma bobagem e tem pouco a ver com a realidade. Não passa nem mesmo no teste de cheiro das estatísticas.

Isso não é big data

O ponto forte do big data é a capacidade de analisar mais informações (volume) de diferentes fontes (variedade) com mais velocidade (velocidade). No entanto, essa análise mostra uma análise de pouquíssimas informações (apenas medalhas) de uma única fonte (medalhas olímpicas) e um punhado por dia. Além disso, o PIB per capita e a população são construções altamente agregadas de "poucos dados".

O que seria considerado em uma análise de big data do sucesso de Londres 2012?

  • Todos os desempenhos olímpicos são comparados dentro das categorias - chegar em 5º lugar em um evento pode ser um desempenho melhor do que chegar em 2º lugar em outro
  • Informações biométricas, como distância percorrida, frequência cardíaca etc.
  • Número de atletas de cada esporte em todo o mundo
  • Desvio de resultados de esportes coletivos que favorecem países com populações maiores, esportes que têm várias competições semelhantes (por exemplo, natação vs. corrida) e esportes que exigem equipamentos e treinamento mais caros
  • Alteração dos resultados quando uma única vitória é necessária para levar Granada (ou Dominica) ao primeiro lugar
  • Impacto potencial de fatores como temporada de treinamento, jet lag, elevação
  • Distorção dos resultados com base no grau de julgamento por esporte
  • Importância dos resultados dos esportes olímpicos de inverno

Estatísticas e viés de confirmação

A análise de "poucos dados" ajuda a confirmar nossas tendências. Podemos reorganizar as informações para confirmar a tendência de que o Canadá está superando o desempenho dos Estados Unidos. Ou podemos decidir classificar os países, como feito pela imprensa no Canadá, por medalhas conquistadas. Isso coloca o Canadá na 12ª posição no momento em que este artigo foi escrito. (Assim como a NBC). Ou, como a BBC, pesam cada medalha para colocar o Canadá em 32º lugar. Podemos então selecionar a medida que mais apóia nosso ponto de vista.

Big data é sobre teoria da eliminação (ou reduzir o impacto da teoria) para obter insights. Não se decidir e encontrar apoio nas estatísticas. Isso está levando os esportes ao nível das campanhas políticas!

Tópicos

Contato