viernes, 22 de noviembre de 2013

Dorsal 261 y 10111

Empezaremos por el final y terminaremos hablando de lo importante.
El pasado 20 de octubre de 2013 corrí mi primera media maratón, 21 km. y 97 metros. Para las personas que habitualmente trabajamos con números, los hay bonitos y feos, y a mi, me toco un dorsal hermoso, el 10.111 que además es número primo (eso ayuda a que sea todavía más bello). Con el número 10.111 me lance, acompañado de mi buen amigo Nasi, a la aventura de terminar la XXIII Medio Maratón de ValenciaTrinidad Alfonso. Cual caballero y su fiel escudero, completamos los 21,096 km. juntos, subidos sobre nuestras runners y con la música a todo volumen como única armadura. La experiencia fue demoledora (2 horas y 2 minutos para recorrer la distancia) y gratificante (hice todo el recorrido corriendo). La sensación al llegar a meta es de euforia contenida porque el agotamiento no te permite hacer ningún exceso físico. Levantar los brazos supone un esfuerzo, y aunque llevaba algún tiempo preparándome para hacer la prueba, la extenuación de mi cuerpo al final de la misma era total. Orgulloso, con mi número primo en el pecho, recogí la bebida isotónica que me ofrecían los abnegados voluntarios de la organización y me dirigí al stand de Amstel para tomar una cerveza muy fría. ¡Que bien sabe esa cerveza!, después del esfuerzo realizado.
Prueba superada. Muchas Gracias Nasi.


Mención especial para las 1.250 mujeres que terminaron la carrera. Chicas sois unas auténticas campeonas. Atrás quedaron aquellos oscuros años en los que las mujeres tenían prohibido correr la maratón. Fue Kathrine Switzer la primera mujer que corrió el mítico maratón de Boston en 1967, con un tiempo de 4 horas y 20 minutos. Esta teutona lució, orgullosa, el dorsal 261, y aunque algún comisario intentó detenerla al más puro estilo del futbol americano, recorrió los 42 km y 195 metros, eliminando una barrera que únicamente la intransigencia y la sinrazón habían mantenido hasta ese momento. No hay prueba que no podáis superar, ni reto que no podáis hollar. La especie más evolucionada sobre la faz de laTierra, es sin ningún genero de duda, la mujer. Y aunque dicen que los ángeles son asexuados, en mi iconografía, un ángel es una mujer. Seguid derribando los muros y barreras que los pobres de espíritu han alzado a vuestro alrededor y alcanzad el puesto que por vuestros méritos os habéis merecido desde siempre. Sois fuertes y sois valientes, adelante. Y seguid corriendo, como en el “261 Women’s Marathon” que se disputará en Mallorca el próximo mes de marzo, y en el que únicamente pueden participar mujeres. No podré participar, pero contáis con mi apoyo incondicional, y seguro que correré esa maratón con el corazón.
Para algunas personas, correr se ha convertido en una filosofía de vida, y no lo digo por Forest Gump. Hace algún tiempo que leí, "De que hablo cuando hablo de correr" del escritor y corredor de maratones japonés Haruki Murakami, y me quede con un supuesto proverbio budista, “Pain is inevitable. Suffering is optional.” Cuando salimos a correr, cada uno, elegimos el sufrimiento que vamos a soportar, aunque sería más correcto decir, que fijamos el esfuerzo personal que vamos a realizar. El corredor de largas distancias forja su alma con tesón y fuerza de voluntad, virtudes que le servirán en la vía cotidiana para afrontar los problemas del día a día.

Es momento de fijar el nuevo reto. Ponte tú el tuyo, y supérate.


domingo, 10 de noviembre de 2013

El efecto Yule-Simpson

En muchos de los cursos de estadística que he impartido, suelo incluir en las primeras clases la paradoja de Simpson para que los alumnos indaguen en los datos y no se dejen llevar por una primera impresión. En otros aspectos de la vida, la primera impresión es muy importante, pero en estadística, no todo es lo que parece, o no sabemos suficiente sobre el fenómeno que estamos analizando.
El problema es el siguiente: se ha convocado un premio para otorgar un reconocimiento a la compañía aérea que tenga una mayor puntualidad en sus vuelos. La labor parece sencilla. Solicitamos a los diferentes aeropuertos los datos de vuelos retrasados, de acuerdo con la definición que se ha fijado para determinar que un vuelo ha llegado retrasado. Finalmente son dos compañías las que optan al ansiado galardón.

Alaska Airlines
America West

Vuelos
Retrasados
% Retrasados
Vuelos
Retrasados
% Retrasados
Total
3.470
501
14,44%
7.225
787
10,89%
No parece que tengamos ninguna duda, America West debe ser la premiada. De un total de 7.225 vuelos, el 10,89% han llegado con retraso, mientras que Alaska Airlines, tiene un porcentaje de vuelos retrasados del 14,44%. And the prize goes to …
¡Un momento!. Los directivos de Alaska Airlines, no están de acuerdo. Es más, quieren que el premio se lo den a su empresa. Para ello aportan la información desagregada de los vuelos retrasados en cada uno de los aeropuertos en los que operan ambas aerolineas. Los datos son los siguientes:

Alaska Airlines
America West

Vuelos
Retrasados
% Retrasados
Vuelos
Retrasados
% Retrasados
Los Ángeles
559
62
11,09%
811
117
14,43%
Phoenix
233
12
5,15%
5.255
415
7,90%
San Diego
232
20
8,62%
448
65
14,51%
San Francisco
605
102
16,86%
449
129
28,73%
Seattle
1.841
305
16,57%
262
61
23,28%
Total
3.470
501
14,44%
7.225
787
10,89%
Si observamos detenidamente los datos, se comprueba que el porcentaje de vuelos retrasados en cada uno de los aeropuertos es mayor en la compañía America West. Y las diferencias en términos relativos son bastante significativas. Parece que los directivos de Alaska Airlines tienen motivos para reclamar el entorchado. Pero ¿cómo puede ocurrir esto?
El porcentaje de vuelos retrasados en cada uno de los aeropuertos es mayor para America West, sin embargo, cuando agregamos (sumamos vuelos y retrasos) los datos el que tiene un mayor porcentaje de retrasos es Alaska Airlines. De verdad, no hay ningún truco, puedes introducir los datos en una Hoja de Cálculo y realizarlos tu mismo.
Esta confusión se ha creado por un simple problema aritmético a la hora de agregar datos. Mientras que Alaska Airlines sufre el mayor número de retrasos en Seattle, 305 lo que hace un porcentaje del 16,57%, America West tiene 415 retrasos en Phoenix, siendo el porcentaje 7,90%. El porcentaje del total agregado estará sesgado hacia estos valores porque en ambos casos suponen más del 50% de los retrasos en cada una de las dos compañías.
Stenmark y Wu (2004) establecen un principio importante, si existe independencia entre la variable potencialmente distorsionadora y la variable objeto de estudio, o si el estudio esta distribuido proporcionalmente o balanceado, entonces no se producirá la distorsión de la paradoja de Simpson. Si con los mismos porcentajes de los retrasos en los diferentes aeropuertos, hacemos que el número de vuelos operados en ambas compañías sea el mismo o proporcional, la compañía que obtiene mejores resultados de puntualidad es Alaska Airlines.
Sin embargo, el problema fundamental es que se ha establecido una relación causa-efecto sobre la base de una correlación numérica. El retraso de los vuelos no viene determinado por la compañía aérea que los lleva a cabo, se puede afirmar que existe una relación espuria entre ambas variables. Al desagregar los datos, se descubre que Alaska Airlines tiene su mayor número de vuelos del aeropuerto de Seattle (1.841; 53,05%), y también su mayor número de retrasos (305; 60,88%). Las condiciones climáticas de este aeropuerto puede ser bastante duras, sobre todo en invierno, donde la temperatura media de los últimos años ha sido 0º Celsius, y en verano no superan los 27º. En contraposición, America West tiene el mayor número de operaciones desde el aeropuerto de Phoenix (Arizona), cuyas temperaturas promedio son 7º en invierno y más de 40º en verano.
Existe, por tanto, una variable oculta en este análisis que puede ser la que determine el retraso de los vuelos, el tiempo climático. Aunque, obviamente, también podrían ser otros muchos factores que no podemos analizar en base a los datos disponibles (condiciones físicas y particulares de los diferentes aeropuertos). Lo que está claro es que el premio a la puntualidad se lo puede llevar cualquiera, porque la puntualidad no es una causa de las habilidades de la compañías aéreas, y depende, principalmente de su estructura de vuelos y aeropuertos de origen. Stenmark y Wu (2004) hacen la siguiente descripción: una variable puede distorsionar el resultado de un análisis estadístico sólo si está relacionada (no independencia) a ambas , la variable dependiente y al menos a una de las otras variables (independientes) en el análisis.
La paradoja de Simpson es la inversión, o reversión, de una asociación entre dos variables después que una tercera variable se haya tenido en cuenta. La paradoja se Simpson es importante por varias razones:
a)              Demuestra claramente que la correlación no es siempre una causación. Si la dirección de una asociación se puede invertir, cualquier afirmación sobre la consecuencia directa es claramente discutible.
b)              Demuestra que las asociaciones son a veces condicionadas. Los estudiantes, a menudo, piensan que las asociaciones numéricas son inmutables (como no condicionadas).
c)              Introduce el tamaño de efecto mínimo necesario para que un factor distorsionante explique una asociación espuria.
Finalmente, el premio lo van a compartir ambas empresas, y han decidido que lo recoja Homer Simpson, aunque el efecto Yule-Simpson, o paradoja de Simpson, recibe el nombre en honor de Edward Simpson, quien lo describió en 1951, sin embargo, había sido descrito previamente por los estadístico británicos Karl Pearson en el año 1899 y por G. Udny Yule en 1900.

Los datos que he utilizado en el presente ejemplo son del libro Estadística aplicada básica de David S. Moore. Hay muchos datos disponibles que ilustran este efecto, incluso podríamos utilizar los datos de la serie Numb3rs (Capítulo 9 de la 5ª Temporada).