Doug Hadden, Vicepresidente de Productos
Las estadísticas deportivas, popularizadas por el libro (y la película) Moneyball. La premisa de Moneyball es que las medidas tradicionales utilizadas en el deporte suelen ser incorrectas. La llegada de "grandes datos" y técnicas de big data como la visualización prometen cambiar nuestras ideas preconcebidas sobre el deporte. El sitio Olimpiadas per cápita sitio web es un ejemplo de esto que muestra (en este momento) que Granada es el país más exitoso en Londres 2012 sobre la base de la población He notado un montón de tweets y comentarios acerca de esto. Además, hay una bonita visualización de mapas.
Por supuesto, todo son paparruchas y tienen poco que ver con la realidad. Ni siquiera pasa la prueba del olfato estadístico.
Eso no son grandes datos
El punto fuerte del big data es la capacidad de analizar más información (volumen) procedente de distintas fuentes (variedad) y con mayor rapidez (velocidad). Sin embargo, este análisis muestra un análisis de muy poca información (sólo medallas) de una única fuente (medallas olímpicas) y un puñado al día. Además, el PIB per cápita y la población son construcciones de "pocos datos" muy agregados.
¿Qué consideraría un análisis de big data del éxito de Londres 2012?
- Todas las actuaciones olímpicas se comparan dentro de una misma categoría: quedar 5º en una prueba puede ser mejor que quedar 2º en otra.
- Información biométrica como distancia recorrida, frecuencia cardiaca, etc.
- Número de atletas de cada deporte en el mundo
- Distorsión de los resultados de los deportes de equipo que favorecen a los países con mayor población, los deportes que tienen múltiples competiciones similares (por ejemplo, natación frente a atletismo) y los deportes que requieren un equipamiento y un entrenamiento más caros.
- Resultados sesgados en los que una sola victoria es necesaria para propulsar a Granada (o Dominica) al número 1.
- Posible impacto de factores como la temporada de entrenamiento, el desfase horario o la altitud.
- Sesgo de los resultados en función del grado de arbitraje por deporte
- Importancia de los resultados de los Juegos Olímpicos de Invierno
Estadísticas y sesgo de confirmación
El análisis de "pocos datos" ayuda a confirmar nuestros prejuicios. Podemos reordenar la información para confirmar el sesgo de que Canadá supera a Estados Unidos. O podemos decidir clasificar a los países, como hace la prensa en Canadá, por medallas ganadas. De este modo, Canadá se sitúa en el puesto 12 de la clasificación. (Al igual que la NBC). O, como la BBC, ponderan cada medalla para situar a Canadá en el puesto 32º.. A continuación, podemos seleccionar la medida que más apoye nuestro punto de vista.
Los macrodatos son eliminar la teoría (o reducir el impacto de la teoría) para alcanzar la perspicacia. No decidirse y encontrar apoyo en las estadísticas. Esto es rebajar el deporte al nivel de las campañas políticas.