domingo, 8 de diciembre de 2013

El dilema de Monty Hall

Es muy sencillo. Aquí tengo tres cartas, ¿ves? La sota de oros, que eres tú o, mejor dicho, tu vida; la sota de copas, que es nuestro común amigo Pílades y, por ultimo, la sota de bastos que seguro que ya habrás adivinado que me representa a mi.
[…] –Muy sencillo. Si aciertas dónde está la sota de oros, te dejare marchar. Si no, mueres. Elige.
[…] –Esa –indicó el inspector con la mirada.
[…] –Bueno, bueno, bueno, bueno. ¿Y si hago esto?
Manteniendo la teatralidad, destapó la carta del medio, y simuló con ella el despegue de un avión.
-Solo quedamos tú y yo. Mira, voy a darte de nuevo la oportunidad de que cambies de carta. Si quieres, claro. Solo si tu quieres.

Sin duda alguna el Inspector Sancho debe cambiar su elección para mejorar la probabilidad de salvar su vida. Este juego es conocido como el dilema de Monty Hall. Y el trozo del texto que he copiado, es de una magnifica novela policiaca de César Pérez Gellida, que tiene por título “Memento mori”. El dramatismo en el que nos encontramos con el dilema de Monty Hall es mucho mayor que el que se producía en el programa de televisión, y que debe su nombre a aquel entrañable presentador con sus chaquetas de grandes cuadros y sus tres puertas sobre el escenario.
El problema en cuestión se hizo tremendamente conocido porque se creo una gran controversia cuando Marilyn vos Savant contesto a esta cuestión en su columna “Pregúntale a Marilyn” de la revista Parade Magazine en 1990. A la respuesta que es mejor cambiar de puerta (en el concurso televisivo) o de carta (si nuestro inspector quiere conservar su vida), muchos lectores reaccionaron airadamente. La revista recibió más de 10.000 cartas, algunas de profesores de matemáticas que pedían una rectificación al considerar que la respuesta era errónea. Incluso el destacado matemático húngaro Paul Erdös dijo: “Eso es imposible”. Y pensamos que las matemáticas no generan debate público.
Este problema es una cuestión de probabilidad condicionada y existen varias pruebas matemáticas formales, aunque parece que van contra nuestra intuición. La respuesta más habitual es que es indiferente cambiar de puerta o mantener la elección, ya que la probabilidad de que el premio esté detrás de cada una de las puertas es de 0,5; se tiene dos puertas posibles y un solo premio. Sin embargo, cuando se elige la puerta por primera vez la probabilidad de obtener el premio es sólo de un tercio, frente a dos tercios de que esté en las puertas no elegidas. Si se abre una de las puertas no elegidas, y siempre se debe abrir una puerta no premiada, la puerta que permanece cerrada ahora tiene una probabilidad de dos tercios. Es lo mismo que si Monty Hall nos dejase elegir dos puertas, antes de abrir ninguna de las dos puertas, la probabilidad de obtener el premio sería dos tercios.
El problema lo hemos visto explicado en el cine y en la televisión. En la película “21 Blackjack” (2008), Kevin Spacey pone a prueba la inteligencia de uno de sus alumnos con este mismo problema. Ver aquí. En lugar de tres puertas tiene tres enormes pizarras para recrear el plató de televisión del programa “Let’s Make a Deal”.
En el episodio número 13 de la primera temporada (2005) de la serie de televisión “Numb3rs” nos encontramos con una explicación sobre el problema que Charlie Eppes (David Krumholtz) realiza a un grupo de estudiantes. Ver aquí.
Cuando se plantea el problema a los alumnos por primera vez tienden a simplificar la cuestión, ya que piensan que el hecho de que Monty Hall nos haya aportado información no es relevante en nuestra elección. Comprender la probabilidad condicionada y el Teorema de Bayes es de gran utilidad en la conceptualización de la probabilidad.
Algunas veces, la primera respuesta no es la correcta.

Gráfico original del profesor John de Pillis, extraído de su libro 777 Mathematical Conversation Starters.

Por cierto, estoy deseando empezar la lectura de la segunda entrega del Inspector Sancho que lleva por título “Dies irae”, y que es una recomendación que Dolores Redondo (otra magnifica escritora) hizo en los encuentros digitales del diario El Mundo.

viernes, 22 de noviembre de 2013

Dorsal 261 y 10111

Empezaremos por el final y terminaremos hablando de lo importante.
El pasado 20 de octubre de 2013 corrí mi primera media maratón, 21 km. y 97 metros. Para las personas que habitualmente trabajamos con números, los hay bonitos y feos, y a mi, me toco un dorsal hermoso, el 10.111 que además es número primo (eso ayuda a que sea todavía más bello). Con el número 10.111 me lance, acompañado de mi buen amigo Nasi, a la aventura de terminar la XXIII Medio Maratón de ValenciaTrinidad Alfonso. Cual caballero y su fiel escudero, completamos los 21,096 km. juntos, subidos sobre nuestras runners y con la música a todo volumen como única armadura. La experiencia fue demoledora (2 horas y 2 minutos para recorrer la distancia) y gratificante (hice todo el recorrido corriendo). La sensación al llegar a meta es de euforia contenida porque el agotamiento no te permite hacer ningún exceso físico. Levantar los brazos supone un esfuerzo, y aunque llevaba algún tiempo preparándome para hacer la prueba, la extenuación de mi cuerpo al final de la misma era total. Orgulloso, con mi número primo en el pecho, recogí la bebida isotónica que me ofrecían los abnegados voluntarios de la organización y me dirigí al stand de Amstel para tomar una cerveza muy fría. ¡Que bien sabe esa cerveza!, después del esfuerzo realizado.
Prueba superada. Muchas Gracias Nasi.


Mención especial para las 1.250 mujeres que terminaron la carrera. Chicas sois unas auténticas campeonas. Atrás quedaron aquellos oscuros años en los que las mujeres tenían prohibido correr la maratón. Fue Kathrine Switzer la primera mujer que corrió el mítico maratón de Boston en 1967, con un tiempo de 4 horas y 20 minutos. Esta teutona lució, orgullosa, el dorsal 261, y aunque algún comisario intentó detenerla al más puro estilo del futbol americano, recorrió los 42 km y 195 metros, eliminando una barrera que únicamente la intransigencia y la sinrazón habían mantenido hasta ese momento. No hay prueba que no podáis superar, ni reto que no podáis hollar. La especie más evolucionada sobre la faz de laTierra, es sin ningún genero de duda, la mujer. Y aunque dicen que los ángeles son asexuados, en mi iconografía, un ángel es una mujer. Seguid derribando los muros y barreras que los pobres de espíritu han alzado a vuestro alrededor y alcanzad el puesto que por vuestros méritos os habéis merecido desde siempre. Sois fuertes y sois valientes, adelante. Y seguid corriendo, como en el “261 Women’s Marathon” que se disputará en Mallorca el próximo mes de marzo, y en el que únicamente pueden participar mujeres. No podré participar, pero contáis con mi apoyo incondicional, y seguro que correré esa maratón con el corazón.
Para algunas personas, correr se ha convertido en una filosofía de vida, y no lo digo por Forest Gump. Hace algún tiempo que leí, "De que hablo cuando hablo de correr" del escritor y corredor de maratones japonés Haruki Murakami, y me quede con un supuesto proverbio budista, “Pain is inevitable. Suffering is optional.” Cuando salimos a correr, cada uno, elegimos el sufrimiento que vamos a soportar, aunque sería más correcto decir, que fijamos el esfuerzo personal que vamos a realizar. El corredor de largas distancias forja su alma con tesón y fuerza de voluntad, virtudes que le servirán en la vía cotidiana para afrontar los problemas del día a día.

Es momento de fijar el nuevo reto. Ponte tú el tuyo, y supérate.


domingo, 10 de noviembre de 2013

El efecto Yule-Simpson

En muchos de los cursos de estadística que he impartido, suelo incluir en las primeras clases la paradoja de Simpson para que los alumnos indaguen en los datos y no se dejen llevar por una primera impresión. En otros aspectos de la vida, la primera impresión es muy importante, pero en estadística, no todo es lo que parece, o no sabemos suficiente sobre el fenómeno que estamos analizando.
El problema es el siguiente: se ha convocado un premio para otorgar un reconocimiento a la compañía aérea que tenga una mayor puntualidad en sus vuelos. La labor parece sencilla. Solicitamos a los diferentes aeropuertos los datos de vuelos retrasados, de acuerdo con la definición que se ha fijado para determinar que un vuelo ha llegado retrasado. Finalmente son dos compañías las que optan al ansiado galardón.

Alaska Airlines
America West

Vuelos
Retrasados
% Retrasados
Vuelos
Retrasados
% Retrasados
Total
3.470
501
14,44%
7.225
787
10,89%
No parece que tengamos ninguna duda, America West debe ser la premiada. De un total de 7.225 vuelos, el 10,89% han llegado con retraso, mientras que Alaska Airlines, tiene un porcentaje de vuelos retrasados del 14,44%. And the prize goes to …
¡Un momento!. Los directivos de Alaska Airlines, no están de acuerdo. Es más, quieren que el premio se lo den a su empresa. Para ello aportan la información desagregada de los vuelos retrasados en cada uno de los aeropuertos en los que operan ambas aerolineas. Los datos son los siguientes:

Alaska Airlines
America West

Vuelos
Retrasados
% Retrasados
Vuelos
Retrasados
% Retrasados
Los Ángeles
559
62
11,09%
811
117
14,43%
Phoenix
233
12
5,15%
5.255
415
7,90%
San Diego
232
20
8,62%
448
65
14,51%
San Francisco
605
102
16,86%
449
129
28,73%
Seattle
1.841
305
16,57%
262
61
23,28%
Total
3.470
501
14,44%
7.225
787
10,89%
Si observamos detenidamente los datos, se comprueba que el porcentaje de vuelos retrasados en cada uno de los aeropuertos es mayor en la compañía America West. Y las diferencias en términos relativos son bastante significativas. Parece que los directivos de Alaska Airlines tienen motivos para reclamar el entorchado. Pero ¿cómo puede ocurrir esto?
El porcentaje de vuelos retrasados en cada uno de los aeropuertos es mayor para America West, sin embargo, cuando agregamos (sumamos vuelos y retrasos) los datos el que tiene un mayor porcentaje de retrasos es Alaska Airlines. De verdad, no hay ningún truco, puedes introducir los datos en una Hoja de Cálculo y realizarlos tu mismo.
Esta confusión se ha creado por un simple problema aritmético a la hora de agregar datos. Mientras que Alaska Airlines sufre el mayor número de retrasos en Seattle, 305 lo que hace un porcentaje del 16,57%, America West tiene 415 retrasos en Phoenix, siendo el porcentaje 7,90%. El porcentaje del total agregado estará sesgado hacia estos valores porque en ambos casos suponen más del 50% de los retrasos en cada una de las dos compañías.
Stenmark y Wu (2004) establecen un principio importante, si existe independencia entre la variable potencialmente distorsionadora y la variable objeto de estudio, o si el estudio esta distribuido proporcionalmente o balanceado, entonces no se producirá la distorsión de la paradoja de Simpson. Si con los mismos porcentajes de los retrasos en los diferentes aeropuertos, hacemos que el número de vuelos operados en ambas compañías sea el mismo o proporcional, la compañía que obtiene mejores resultados de puntualidad es Alaska Airlines.
Sin embargo, el problema fundamental es que se ha establecido una relación causa-efecto sobre la base de una correlación numérica. El retraso de los vuelos no viene determinado por la compañía aérea que los lleva a cabo, se puede afirmar que existe una relación espuria entre ambas variables. Al desagregar los datos, se descubre que Alaska Airlines tiene su mayor número de vuelos del aeropuerto de Seattle (1.841; 53,05%), y también su mayor número de retrasos (305; 60,88%). Las condiciones climáticas de este aeropuerto puede ser bastante duras, sobre todo en invierno, donde la temperatura media de los últimos años ha sido 0º Celsius, y en verano no superan los 27º. En contraposición, America West tiene el mayor número de operaciones desde el aeropuerto de Phoenix (Arizona), cuyas temperaturas promedio son 7º en invierno y más de 40º en verano.
Existe, por tanto, una variable oculta en este análisis que puede ser la que determine el retraso de los vuelos, el tiempo climático. Aunque, obviamente, también podrían ser otros muchos factores que no podemos analizar en base a los datos disponibles (condiciones físicas y particulares de los diferentes aeropuertos). Lo que está claro es que el premio a la puntualidad se lo puede llevar cualquiera, porque la puntualidad no es una causa de las habilidades de la compañías aéreas, y depende, principalmente de su estructura de vuelos y aeropuertos de origen. Stenmark y Wu (2004) hacen la siguiente descripción: una variable puede distorsionar el resultado de un análisis estadístico sólo si está relacionada (no independencia) a ambas , la variable dependiente y al menos a una de las otras variables (independientes) en el análisis.
La paradoja de Simpson es la inversión, o reversión, de una asociación entre dos variables después que una tercera variable se haya tenido en cuenta. La paradoja se Simpson es importante por varias razones:
a)              Demuestra claramente que la correlación no es siempre una causación. Si la dirección de una asociación se puede invertir, cualquier afirmación sobre la consecuencia directa es claramente discutible.
b)              Demuestra que las asociaciones son a veces condicionadas. Los estudiantes, a menudo, piensan que las asociaciones numéricas son inmutables (como no condicionadas).
c)              Introduce el tamaño de efecto mínimo necesario para que un factor distorsionante explique una asociación espuria.
Finalmente, el premio lo van a compartir ambas empresas, y han decidido que lo recoja Homer Simpson, aunque el efecto Yule-Simpson, o paradoja de Simpson, recibe el nombre en honor de Edward Simpson, quien lo describió en 1951, sin embargo, había sido descrito previamente por los estadístico británicos Karl Pearson en el año 1899 y por G. Udny Yule en 1900.

Los datos que he utilizado en el presente ejemplo son del libro Estadística aplicada básica de David S. Moore. Hay muchos datos disponibles que ilustran este efecto, incluso podríamos utilizar los datos de la serie Numb3rs (Capítulo 9 de la 5ª Temporada).