domingo, 10 de noviembre de 2013

El efecto Yule-Simpson

En muchos de los cursos de estadística que he impartido, suelo incluir en las primeras clases la paradoja de Simpson para que los alumnos indaguen en los datos y no se dejen llevar por una primera impresión. En otros aspectos de la vida, la primera impresión es muy importante, pero en estadística, no todo es lo que parece, o no sabemos suficiente sobre el fenómeno que estamos analizando.
El problema es el siguiente: se ha convocado un premio para otorgar un reconocimiento a la compañía aérea que tenga una mayor puntualidad en sus vuelos. La labor parece sencilla. Solicitamos a los diferentes aeropuertos los datos de vuelos retrasados, de acuerdo con la definición que se ha fijado para determinar que un vuelo ha llegado retrasado. Finalmente son dos compañías las que optan al ansiado galardón.

Alaska Airlines
America West

Vuelos
Retrasados
% Retrasados
Vuelos
Retrasados
% Retrasados
Total
3.470
501
14,44%
7.225
787
10,89%
No parece que tengamos ninguna duda, America West debe ser la premiada. De un total de 7.225 vuelos, el 10,89% han llegado con retraso, mientras que Alaska Airlines, tiene un porcentaje de vuelos retrasados del 14,44%. And the prize goes to …
¡Un momento!. Los directivos de Alaska Airlines, no están de acuerdo. Es más, quieren que el premio se lo den a su empresa. Para ello aportan la información desagregada de los vuelos retrasados en cada uno de los aeropuertos en los que operan ambas aerolineas. Los datos son los siguientes:

Alaska Airlines
America West

Vuelos
Retrasados
% Retrasados
Vuelos
Retrasados
% Retrasados
Los Ángeles
559
62
11,09%
811
117
14,43%
Phoenix
233
12
5,15%
5.255
415
7,90%
San Diego
232
20
8,62%
448
65
14,51%
San Francisco
605
102
16,86%
449
129
28,73%
Seattle
1.841
305
16,57%
262
61
23,28%
Total
3.470
501
14,44%
7.225
787
10,89%
Si observamos detenidamente los datos, se comprueba que el porcentaje de vuelos retrasados en cada uno de los aeropuertos es mayor en la compañía America West. Y las diferencias en términos relativos son bastante significativas. Parece que los directivos de Alaska Airlines tienen motivos para reclamar el entorchado. Pero ¿cómo puede ocurrir esto?
El porcentaje de vuelos retrasados en cada uno de los aeropuertos es mayor para America West, sin embargo, cuando agregamos (sumamos vuelos y retrasos) los datos el que tiene un mayor porcentaje de retrasos es Alaska Airlines. De verdad, no hay ningún truco, puedes introducir los datos en una Hoja de Cálculo y realizarlos tu mismo.
Esta confusión se ha creado por un simple problema aritmético a la hora de agregar datos. Mientras que Alaska Airlines sufre el mayor número de retrasos en Seattle, 305 lo que hace un porcentaje del 16,57%, America West tiene 415 retrasos en Phoenix, siendo el porcentaje 7,90%. El porcentaje del total agregado estará sesgado hacia estos valores porque en ambos casos suponen más del 50% de los retrasos en cada una de las dos compañías.
Stenmark y Wu (2004) establecen un principio importante, si existe independencia entre la variable potencialmente distorsionadora y la variable objeto de estudio, o si el estudio esta distribuido proporcionalmente o balanceado, entonces no se producirá la distorsión de la paradoja de Simpson. Si con los mismos porcentajes de los retrasos en los diferentes aeropuertos, hacemos que el número de vuelos operados en ambas compañías sea el mismo o proporcional, la compañía que obtiene mejores resultados de puntualidad es Alaska Airlines.
Sin embargo, el problema fundamental es que se ha establecido una relación causa-efecto sobre la base de una correlación numérica. El retraso de los vuelos no viene determinado por la compañía aérea que los lleva a cabo, se puede afirmar que existe una relación espuria entre ambas variables. Al desagregar los datos, se descubre que Alaska Airlines tiene su mayor número de vuelos del aeropuerto de Seattle (1.841; 53,05%), y también su mayor número de retrasos (305; 60,88%). Las condiciones climáticas de este aeropuerto puede ser bastante duras, sobre todo en invierno, donde la temperatura media de los últimos años ha sido 0º Celsius, y en verano no superan los 27º. En contraposición, America West tiene el mayor número de operaciones desde el aeropuerto de Phoenix (Arizona), cuyas temperaturas promedio son 7º en invierno y más de 40º en verano.
Existe, por tanto, una variable oculta en este análisis que puede ser la que determine el retraso de los vuelos, el tiempo climático. Aunque, obviamente, también podrían ser otros muchos factores que no podemos analizar en base a los datos disponibles (condiciones físicas y particulares de los diferentes aeropuertos). Lo que está claro es que el premio a la puntualidad se lo puede llevar cualquiera, porque la puntualidad no es una causa de las habilidades de la compañías aéreas, y depende, principalmente de su estructura de vuelos y aeropuertos de origen. Stenmark y Wu (2004) hacen la siguiente descripción: una variable puede distorsionar el resultado de un análisis estadístico sólo si está relacionada (no independencia) a ambas , la variable dependiente y al menos a una de las otras variables (independientes) en el análisis.
La paradoja de Simpson es la inversión, o reversión, de una asociación entre dos variables después que una tercera variable se haya tenido en cuenta. La paradoja se Simpson es importante por varias razones:
a)              Demuestra claramente que la correlación no es siempre una causación. Si la dirección de una asociación se puede invertir, cualquier afirmación sobre la consecuencia directa es claramente discutible.
b)              Demuestra que las asociaciones son a veces condicionadas. Los estudiantes, a menudo, piensan que las asociaciones numéricas son inmutables (como no condicionadas).
c)              Introduce el tamaño de efecto mínimo necesario para que un factor distorsionante explique una asociación espuria.
Finalmente, el premio lo van a compartir ambas empresas, y han decidido que lo recoja Homer Simpson, aunque el efecto Yule-Simpson, o paradoja de Simpson, recibe el nombre en honor de Edward Simpson, quien lo describió en 1951, sin embargo, había sido descrito previamente por los estadístico británicos Karl Pearson en el año 1899 y por G. Udny Yule en 1900.

Los datos que he utilizado en el presente ejemplo son del libro Estadística aplicada básica de David S. Moore. Hay muchos datos disponibles que ilustran este efecto, incluso podríamos utilizar los datos de la serie Numb3rs (Capítulo 9 de la 5ª Temporada).

No hay comentarios:

Publicar un comentario