En muchos de los cursos de
estadística que he impartido, suelo incluir en las primeras clases la paradoja
de Simpson para que los alumnos indaguen en los datos y no se dejen llevar por
una primera impresión. En otros aspectos de la vida, la primera impresión es muy
importante, pero en estadística, no todo es lo que parece, o no sabemos
suficiente sobre el fenómeno que estamos analizando.
El problema es el siguiente: se
ha convocado un premio para otorgar un reconocimiento a la compañía aérea que
tenga una mayor puntualidad en sus vuelos. La labor parece sencilla.
Solicitamos a los diferentes aeropuertos los datos de vuelos retrasados, de
acuerdo con la definición que se ha fijado para determinar que un vuelo ha
llegado retrasado. Finalmente son dos compañías las que optan al ansiado
galardón.
|
Alaska Airlines
|
America West
|
||||
|
Vuelos
|
Retrasados
|
% Retrasados
|
Vuelos
|
Retrasados
|
% Retrasados
|
Total
|
3.470
|
501
|
14,44%
|
7.225
|
787
|
10,89%
|
No parece que tengamos ninguna
duda, America West debe ser la premiada. De un total de 7.225 vuelos, el 10,89%
han llegado con retraso, mientras que Alaska Airlines, tiene un porcentaje de
vuelos retrasados del 14,44%. And the prize goes to …
¡Un momento!. Los directivos de
Alaska Airlines, no están de acuerdo. Es más, quieren que el premio se lo den a
su empresa. Para ello aportan la información desagregada de los vuelos
retrasados en cada uno de los aeropuertos en los que operan ambas aerolineas.
Los datos son los siguientes:
|
Alaska Airlines
|
America West
|
||||
|
Vuelos
|
Retrasados
|
% Retrasados
|
Vuelos
|
Retrasados
|
% Retrasados
|
Los Ángeles
|
559
|
62
|
11,09%
|
811
|
117
|
14,43%
|
Phoenix
|
233
|
12
|
5,15%
|
5.255
|
415
|
7,90%
|
San Diego
|
232
|
20
|
8,62%
|
448
|
65
|
14,51%
|
San Francisco
|
605
|
102
|
16,86%
|
449
|
129
|
28,73%
|
Seattle
|
1.841
|
305
|
16,57%
|
262
|
61
|
23,28%
|
Total
|
3.470
|
501
|
14,44%
|
7.225
|
787
|
10,89%
|
Si observamos detenidamente los
datos, se comprueba que el porcentaje de vuelos retrasados en cada uno de los
aeropuertos es mayor en la compañía America West. Y las diferencias en términos
relativos son bastante significativas. Parece que los directivos de Alaska
Airlines tienen motivos para reclamar el entorchado. Pero ¿cómo puede ocurrir
esto?
El porcentaje de vuelos
retrasados en cada uno de los aeropuertos es mayor para America West, sin
embargo, cuando agregamos (sumamos vuelos y retrasos) los datos el que tiene un
mayor porcentaje de retrasos es Alaska Airlines. De verdad, no hay ningún
truco, puedes introducir los datos en una Hoja de Cálculo y realizarlos tu
mismo.
Esta confusión se ha creado por
un simple problema aritmético a la hora de agregar datos. Mientras que Alaska
Airlines sufre el mayor número de retrasos en Seattle, 305 lo que hace un
porcentaje del 16,57%, America West tiene 415 retrasos en Phoenix, siendo el
porcentaje 7,90%. El porcentaje del total agregado estará sesgado hacia estos
valores porque en ambos casos suponen más del 50% de los retrasos en cada una
de las dos compañías.
Stenmark y Wu (2004) establecen
un principio importante, si existe independencia entre la variable
potencialmente distorsionadora y la variable objeto de estudio, o si el estudio
esta distribuido proporcionalmente o balanceado, entonces no se producirá la
distorsión de la paradoja de Simpson. Si con los mismos porcentajes de los
retrasos en los diferentes aeropuertos, hacemos que el número de vuelos
operados en ambas compañías sea el mismo o proporcional, la compañía que
obtiene mejores resultados de puntualidad es Alaska Airlines.
Sin embargo, el problema
fundamental es que se ha establecido una relación causa-efecto sobre la base de
una correlación numérica. El retraso de los vuelos no viene determinado por la
compañía aérea que los lleva a cabo, se puede afirmar que existe una relación
espuria entre ambas variables. Al desagregar los datos, se descubre que Alaska
Airlines tiene su mayor número de vuelos del aeropuerto de Seattle (1.841;
53,05%), y también su mayor número de retrasos (305; 60,88%). Las condiciones
climáticas de este aeropuerto puede ser bastante duras, sobre todo en invierno,
donde la temperatura media de los últimos años ha sido 0º Celsius, y en verano
no superan los 27º. En contraposición, America West tiene el mayor número de
operaciones desde el aeropuerto de Phoenix (Arizona), cuyas temperaturas
promedio son 7º en invierno y más de 40º en verano.
Existe, por tanto, una variable
oculta en este análisis que puede ser la que determine el retraso de los
vuelos, el tiempo climático. Aunque, obviamente, también podrían ser otros
muchos factores que no podemos analizar en base a los datos disponibles
(condiciones físicas y particulares de los diferentes aeropuertos). Lo que está
claro es que el premio a la puntualidad se lo puede llevar cualquiera, porque
la puntualidad no es una causa de las habilidades de la compañías aéreas, y
depende, principalmente de su estructura de vuelos y aeropuertos de origen.
Stenmark y Wu (2004) hacen la siguiente descripción: una variable puede
distorsionar el resultado de un análisis estadístico sólo si está relacionada
(no independencia) a ambas , la variable dependiente y al menos a una de las
otras variables (independientes) en el análisis.
La paradoja de Simpson es la
inversión, o reversión, de una asociación entre dos variables después que una
tercera variable se haya tenido en cuenta. La paradoja se Simpson es importante
por varias razones:
a)
Demuestra claramente que la
correlación no es siempre una causación. Si la dirección de una asociación se
puede invertir, cualquier afirmación sobre la consecuencia directa es
claramente discutible.
b)
Demuestra que las asociaciones
son a veces condicionadas. Los estudiantes, a menudo, piensan que las
asociaciones numéricas son inmutables (como no condicionadas).
c)
Introduce el tamaño de efecto
mínimo necesario para que un factor distorsionante explique una asociación
espuria.
Finalmente, el premio lo van a
compartir ambas empresas, y han decidido que lo recoja Homer Simpson, aunque el
efecto Yule-Simpson, o paradoja de Simpson, recibe el nombre en honor de Edward
Simpson, quien lo describió en 1951, sin embargo, había
sido descrito previamente por los estadístico británicos
Karl Pearson en el año 1899 y por G. Udny Yule en 1900.
Los datos que he utilizado en
el presente ejemplo son del libro Estadística aplicada básica de David S. Moore. Hay muchos datos disponibles que
ilustran este efecto, incluso podríamos utilizar los datos de la serie Numb3rs
(Capítulo 9 de la 5ª Temporada).
No hay comentarios:
Publicar un comentario