jueves, 10 de julio de 2014

La señal y el ruido por Nate Silver


Es muy agradable tomar un café a media mañana. Yo lo hago habitualmente con mis compañeros de trabajo, pero reconozco que no es el mejor sitio para tener una conversación distendida. Hay un momento en el que el ruido (la suma de las conversaciones de nuestro entorno) que hay en la cafetería impide hablar sin levantar la voz. La señal que nos interesa es la de nuestro interlocutor, pero se ve alterada por el resto de conversaciones.
Nate Silver ha elegido este título para su primer libro, y muy poca gente apostaría a que es un libro de estadística. Gracias al Cielo que tiene subtítulo, “Cómo navegar por la maraña de datos que nos inunda, localizar los que son relevantes y utilizarlos para elaborarpredicciones fiables”. Bueno, pienso que hubiera sido mejor que no le hubiera puesto subtitulo y hubieran dejado el título original en ingles: “The signal and the noise: Why so many predictions fail – but some don’t”.
Este libro es un magnifico ensayo sobre probabilidad y estadística que nos desentraña buena parte de los misterios del arte de la predicción. Silver se convirtió en una estrella televisiva al realizar una predicción correcta en 49 de los 50 estados de EE.UU. de los resultados de las elecciones presidenciales de noviembre de 2008. Parecía que no se podía hacer mejor, pero en la reelección de Obama en 2012, acertó el resultado de los 50 estados. ¿Quién da más?
Silver empezó su carrera como consultor económico en KPMG, pero al poco tiempo se dio cuenta que no le gustaba su trabajo, y que prefería dedicarse a otras labores. Durante algún tiempo se dedicó a analizar las estadísticas del baseball (creó un programa que se denomina PECOTA) y fue jugador de póker on line. Su faceta de jugador de póker viene relatada en el libro y como decidió dejarlo después de que hubiera un cambio en la legislación sobre el juego on line en EE.UU., y él empezase a perder dinero. En toda partida de póker hay un primo (el que siempre pierde), si pasados 15 ó 20 minutos no lo has identificado, el primo, sin ninguna duda, eres tú y vas a perder mucho dinero. Ahora dirige su propia página web, FiveThirtyEight, que es el número de electores en el Colegio Electoral de Estados Unidos. El Presidente de los EE.UU. no es elegido directamente por los votantes. Los votantes eligen a los electores que son los que elegirán al Presidente. Curioso, si tenemos en cuenta que son el paradigma de la democracia.
Aunque todo el libro es de un gran nivel, me gustaría hacer una mención especial al capítulo 12, que se titula “Un clima de sano escepticismo”. Desde mi modesta opinión, es una de las mejores exposiciones sobre el cambio climático que he leído. Sin buscar la confrontación, y sin realizar afirmaciones dogmáticas, plantea la actual situación sobre el calentamiento global basándose en hechos incontrovertibles y la teoría de la probabilidad. Sin ningún genero de dudas, brillante.
El libro de Silver se erigió como mejor libro del año 2012 en el apartado de No ficción de Amazon. Sin embargo, en el apartado de ficción existe un subgénero denominado eco-thriller, que sería aquellas novelas de ficción que tratan sobre el cambio climático y la ecología del planeta. En este apartado destaca con luz propia Michael Crichton y su best seller Estado de Miedo (2004). Esta novela es un alegato de su autor contra el cambio climático y el ecologismo que apoya con una bibliografía de más 20 páginas. Crichton considera que los estudios sobre climatología están politizados y se basan en conjeturas y predicciones de modelos informáticos sin contrastar, lo que lleva a caer en un miedo irracional. La novela esta escrita para expresar unas tesis que hubieran sido muy criticadas si se hubieran realizado desde otro medio, y se podría decir que es un pseudo ensayo.
No me gustaría dejar la literatura de ficción sin mencionar al investigador Tomás Noronha, protagonista de una serie de novelas del escritor portugués Rodrigues dos Santos. En el caso que nos ocupa, la novela es El Séptimo Sello (2009), otro eco-thriller bien documentado sobre el cambio climático. Para Noronha el cambio climático es un fenómeno irreversible que está siendo ocultado por los intereses del petróleo. Unos asesinos a sueldo intentarán localizar y destruir las investigaciones que apoyan las tesis del cambio climático y que avanzan en el campo de las energías renovables y limpias. Como es una novela de ficción, al final ganan los buenos, y en el futuro tendremos energía limpia y casi ilimitada. Vaya olvidándose de pasar por la estación de servicio a llenar el deposito de su coche de gasolina con plomo.
Pero volvamos a las predicciones de Silver: “Los sistemas que combinan unos datos ruidosos y teorías poco desarrolladas (terremotos, ciencias económicas y políticas) desencadenan un proceso que consta de 2 pasos. En primer lugar la gente empieza a confundir el ruido con la señal. En segundo lugar, este ruido contamina diarios, blogs y medios informativos, y produce falsas alarmas, lo que socava el trabajo de la ciencia bien fundamentada y mina nuestra capacidad de comprender como funciona realmente el sistema.
Nate Silver es un narrador brillante y un estadístico que sabe manejar la información, no solo los datos, eso lo diferencia de la gran cantidad de tertulianos que ofrecen sus opiniones basadas en tabúes culturales o creencias ideológicas. Fundamentar las decisiones, sobre todo en ciertos ámbitos (políticos, económicos, empresariales, etc.) permitirá tomar las decisiones óptimas (no confundir con las mejores decisiones). No debemos dejar que el ruido diluya la señal y no podamos avanzar en el desarrollo científico de las ciencias sociales.
Las ideas deben estar al servicio de las personas y no al revés. En un mundo en constante cambio, es necesario recordar aquella frase que Keynes utiliza en algunas ocasiones, “Cuando los hechos cambian, cambio de opinión. ¿Y usted?

domingo, 8 de diciembre de 2013

El dilema de Monty Hall

Es muy sencillo. Aquí tengo tres cartas, ¿ves? La sota de oros, que eres tú o, mejor dicho, tu vida; la sota de copas, que es nuestro común amigo Pílades y, por ultimo, la sota de bastos que seguro que ya habrás adivinado que me representa a mi.
[…] –Muy sencillo. Si aciertas dónde está la sota de oros, te dejare marchar. Si no, mueres. Elige.
[…] –Esa –indicó el inspector con la mirada.
[…] –Bueno, bueno, bueno, bueno. ¿Y si hago esto?
Manteniendo la teatralidad, destapó la carta del medio, y simuló con ella el despegue de un avión.
-Solo quedamos tú y yo. Mira, voy a darte de nuevo la oportunidad de que cambies de carta. Si quieres, claro. Solo si tu quieres.

Sin duda alguna el Inspector Sancho debe cambiar su elección para mejorar la probabilidad de salvar su vida. Este juego es conocido como el dilema de Monty Hall. Y el trozo del texto que he copiado, es de una magnifica novela policiaca de César Pérez Gellida, que tiene por título “Memento mori”. El dramatismo en el que nos encontramos con el dilema de Monty Hall es mucho mayor que el que se producía en el programa de televisión, y que debe su nombre a aquel entrañable presentador con sus chaquetas de grandes cuadros y sus tres puertas sobre el escenario.
El problema en cuestión se hizo tremendamente conocido porque se creo una gran controversia cuando Marilyn vos Savant contesto a esta cuestión en su columna “Pregúntale a Marilyn” de la revista Parade Magazine en 1990. A la respuesta que es mejor cambiar de puerta (en el concurso televisivo) o de carta (si nuestro inspector quiere conservar su vida), muchos lectores reaccionaron airadamente. La revista recibió más de 10.000 cartas, algunas de profesores de matemáticas que pedían una rectificación al considerar que la respuesta era errónea. Incluso el destacado matemático húngaro Paul Erdös dijo: “Eso es imposible”. Y pensamos que las matemáticas no generan debate público.
Este problema es una cuestión de probabilidad condicionada y existen varias pruebas matemáticas formales, aunque parece que van contra nuestra intuición. La respuesta más habitual es que es indiferente cambiar de puerta o mantener la elección, ya que la probabilidad de que el premio esté detrás de cada una de las puertas es de 0,5; se tiene dos puertas posibles y un solo premio. Sin embargo, cuando se elige la puerta por primera vez la probabilidad de obtener el premio es sólo de un tercio, frente a dos tercios de que esté en las puertas no elegidas. Si se abre una de las puertas no elegidas, y siempre se debe abrir una puerta no premiada, la puerta que permanece cerrada ahora tiene una probabilidad de dos tercios. Es lo mismo que si Monty Hall nos dejase elegir dos puertas, antes de abrir ninguna de las dos puertas, la probabilidad de obtener el premio sería dos tercios.
El problema lo hemos visto explicado en el cine y en la televisión. En la película “21 Blackjack” (2008), Kevin Spacey pone a prueba la inteligencia de uno de sus alumnos con este mismo problema. Ver aquí. En lugar de tres puertas tiene tres enormes pizarras para recrear el plató de televisión del programa “Let’s Make a Deal”.
En el episodio número 13 de la primera temporada (2005) de la serie de televisión “Numb3rs” nos encontramos con una explicación sobre el problema que Charlie Eppes (David Krumholtz) realiza a un grupo de estudiantes. Ver aquí.
Cuando se plantea el problema a los alumnos por primera vez tienden a simplificar la cuestión, ya que piensan que el hecho de que Monty Hall nos haya aportado información no es relevante en nuestra elección. Comprender la probabilidad condicionada y el Teorema de Bayes es de gran utilidad en la conceptualización de la probabilidad.
Algunas veces, la primera respuesta no es la correcta.

Gráfico original del profesor John de Pillis, extraído de su libro 777 Mathematical Conversation Starters.

Por cierto, estoy deseando empezar la lectura de la segunda entrega del Inspector Sancho que lleva por título “Dies irae”, y que es una recomendación que Dolores Redondo (otra magnifica escritora) hizo en los encuentros digitales del diario El Mundo.

viernes, 22 de noviembre de 2013

Dorsal 261 y 10111

Empezaremos por el final y terminaremos hablando de lo importante.
El pasado 20 de octubre de 2013 corrí mi primera media maratón, 21 km. y 97 metros. Para las personas que habitualmente trabajamos con números, los hay bonitos y feos, y a mi, me toco un dorsal hermoso, el 10.111 que además es número primo (eso ayuda a que sea todavía más bello). Con el número 10.111 me lance, acompañado de mi buen amigo Nasi, a la aventura de terminar la XXIII Medio Maratón de ValenciaTrinidad Alfonso. Cual caballero y su fiel escudero, completamos los 21,096 km. juntos, subidos sobre nuestras runners y con la música a todo volumen como única armadura. La experiencia fue demoledora (2 horas y 2 minutos para recorrer la distancia) y gratificante (hice todo el recorrido corriendo). La sensación al llegar a meta es de euforia contenida porque el agotamiento no te permite hacer ningún exceso físico. Levantar los brazos supone un esfuerzo, y aunque llevaba algún tiempo preparándome para hacer la prueba, la extenuación de mi cuerpo al final de la misma era total. Orgulloso, con mi número primo en el pecho, recogí la bebida isotónica que me ofrecían los abnegados voluntarios de la organización y me dirigí al stand de Amstel para tomar una cerveza muy fría. ¡Que bien sabe esa cerveza!, después del esfuerzo realizado.
Prueba superada. Muchas Gracias Nasi.


Mención especial para las 1.250 mujeres que terminaron la carrera. Chicas sois unas auténticas campeonas. Atrás quedaron aquellos oscuros años en los que las mujeres tenían prohibido correr la maratón. Fue Kathrine Switzer la primera mujer que corrió el mítico maratón de Boston en 1967, con un tiempo de 4 horas y 20 minutos. Esta teutona lució, orgullosa, el dorsal 261, y aunque algún comisario intentó detenerla al más puro estilo del futbol americano, recorrió los 42 km y 195 metros, eliminando una barrera que únicamente la intransigencia y la sinrazón habían mantenido hasta ese momento. No hay prueba que no podáis superar, ni reto que no podáis hollar. La especie más evolucionada sobre la faz de laTierra, es sin ningún genero de duda, la mujer. Y aunque dicen que los ángeles son asexuados, en mi iconografía, un ángel es una mujer. Seguid derribando los muros y barreras que los pobres de espíritu han alzado a vuestro alrededor y alcanzad el puesto que por vuestros méritos os habéis merecido desde siempre. Sois fuertes y sois valientes, adelante. Y seguid corriendo, como en el “261 Women’s Marathon” que se disputará en Mallorca el próximo mes de marzo, y en el que únicamente pueden participar mujeres. No podré participar, pero contáis con mi apoyo incondicional, y seguro que correré esa maratón con el corazón.
Para algunas personas, correr se ha convertido en una filosofía de vida, y no lo digo por Forest Gump. Hace algún tiempo que leí, "De que hablo cuando hablo de correr" del escritor y corredor de maratones japonés Haruki Murakami, y me quede con un supuesto proverbio budista, “Pain is inevitable. Suffering is optional.” Cuando salimos a correr, cada uno, elegimos el sufrimiento que vamos a soportar, aunque sería más correcto decir, que fijamos el esfuerzo personal que vamos a realizar. El corredor de largas distancias forja su alma con tesón y fuerza de voluntad, virtudes que le servirán en la vía cotidiana para afrontar los problemas del día a día.

Es momento de fijar el nuevo reto. Ponte tú el tuyo, y supérate.


domingo, 10 de noviembre de 2013

El efecto Yule-Simpson

En muchos de los cursos de estadística que he impartido, suelo incluir en las primeras clases la paradoja de Simpson para que los alumnos indaguen en los datos y no se dejen llevar por una primera impresión. En otros aspectos de la vida, la primera impresión es muy importante, pero en estadística, no todo es lo que parece, o no sabemos suficiente sobre el fenómeno que estamos analizando.
El problema es el siguiente: se ha convocado un premio para otorgar un reconocimiento a la compañía aérea que tenga una mayor puntualidad en sus vuelos. La labor parece sencilla. Solicitamos a los diferentes aeropuertos los datos de vuelos retrasados, de acuerdo con la definición que se ha fijado para determinar que un vuelo ha llegado retrasado. Finalmente son dos compañías las que optan al ansiado galardón.

Alaska Airlines
America West

Vuelos
Retrasados
% Retrasados
Vuelos
Retrasados
% Retrasados
Total
3.470
501
14,44%
7.225
787
10,89%
No parece que tengamos ninguna duda, America West debe ser la premiada. De un total de 7.225 vuelos, el 10,89% han llegado con retraso, mientras que Alaska Airlines, tiene un porcentaje de vuelos retrasados del 14,44%. And the prize goes to …
¡Un momento!. Los directivos de Alaska Airlines, no están de acuerdo. Es más, quieren que el premio se lo den a su empresa. Para ello aportan la información desagregada de los vuelos retrasados en cada uno de los aeropuertos en los que operan ambas aerolineas. Los datos son los siguientes:

Alaska Airlines
America West

Vuelos
Retrasados
% Retrasados
Vuelos
Retrasados
% Retrasados
Los Ángeles
559
62
11,09%
811
117
14,43%
Phoenix
233
12
5,15%
5.255
415
7,90%
San Diego
232
20
8,62%
448
65
14,51%
San Francisco
605
102
16,86%
449
129
28,73%
Seattle
1.841
305
16,57%
262
61
23,28%
Total
3.470
501
14,44%
7.225
787
10,89%
Si observamos detenidamente los datos, se comprueba que el porcentaje de vuelos retrasados en cada uno de los aeropuertos es mayor en la compañía America West. Y las diferencias en términos relativos son bastante significativas. Parece que los directivos de Alaska Airlines tienen motivos para reclamar el entorchado. Pero ¿cómo puede ocurrir esto?
El porcentaje de vuelos retrasados en cada uno de los aeropuertos es mayor para America West, sin embargo, cuando agregamos (sumamos vuelos y retrasos) los datos el que tiene un mayor porcentaje de retrasos es Alaska Airlines. De verdad, no hay ningún truco, puedes introducir los datos en una Hoja de Cálculo y realizarlos tu mismo.
Esta confusión se ha creado por un simple problema aritmético a la hora de agregar datos. Mientras que Alaska Airlines sufre el mayor número de retrasos en Seattle, 305 lo que hace un porcentaje del 16,57%, America West tiene 415 retrasos en Phoenix, siendo el porcentaje 7,90%. El porcentaje del total agregado estará sesgado hacia estos valores porque en ambos casos suponen más del 50% de los retrasos en cada una de las dos compañías.
Stenmark y Wu (2004) establecen un principio importante, si existe independencia entre la variable potencialmente distorsionadora y la variable objeto de estudio, o si el estudio esta distribuido proporcionalmente o balanceado, entonces no se producirá la distorsión de la paradoja de Simpson. Si con los mismos porcentajes de los retrasos en los diferentes aeropuertos, hacemos que el número de vuelos operados en ambas compañías sea el mismo o proporcional, la compañía que obtiene mejores resultados de puntualidad es Alaska Airlines.
Sin embargo, el problema fundamental es que se ha establecido una relación causa-efecto sobre la base de una correlación numérica. El retraso de los vuelos no viene determinado por la compañía aérea que los lleva a cabo, se puede afirmar que existe una relación espuria entre ambas variables. Al desagregar los datos, se descubre que Alaska Airlines tiene su mayor número de vuelos del aeropuerto de Seattle (1.841; 53,05%), y también su mayor número de retrasos (305; 60,88%). Las condiciones climáticas de este aeropuerto puede ser bastante duras, sobre todo en invierno, donde la temperatura media de los últimos años ha sido 0º Celsius, y en verano no superan los 27º. En contraposición, America West tiene el mayor número de operaciones desde el aeropuerto de Phoenix (Arizona), cuyas temperaturas promedio son 7º en invierno y más de 40º en verano.
Existe, por tanto, una variable oculta en este análisis que puede ser la que determine el retraso de los vuelos, el tiempo climático. Aunque, obviamente, también podrían ser otros muchos factores que no podemos analizar en base a los datos disponibles (condiciones físicas y particulares de los diferentes aeropuertos). Lo que está claro es que el premio a la puntualidad se lo puede llevar cualquiera, porque la puntualidad no es una causa de las habilidades de la compañías aéreas, y depende, principalmente de su estructura de vuelos y aeropuertos de origen. Stenmark y Wu (2004) hacen la siguiente descripción: una variable puede distorsionar el resultado de un análisis estadístico sólo si está relacionada (no independencia) a ambas , la variable dependiente y al menos a una de las otras variables (independientes) en el análisis.
La paradoja de Simpson es la inversión, o reversión, de una asociación entre dos variables después que una tercera variable se haya tenido en cuenta. La paradoja se Simpson es importante por varias razones:
a)              Demuestra claramente que la correlación no es siempre una causación. Si la dirección de una asociación se puede invertir, cualquier afirmación sobre la consecuencia directa es claramente discutible.
b)              Demuestra que las asociaciones son a veces condicionadas. Los estudiantes, a menudo, piensan que las asociaciones numéricas son inmutables (como no condicionadas).
c)              Introduce el tamaño de efecto mínimo necesario para que un factor distorsionante explique una asociación espuria.
Finalmente, el premio lo van a compartir ambas empresas, y han decidido que lo recoja Homer Simpson, aunque el efecto Yule-Simpson, o paradoja de Simpson, recibe el nombre en honor de Edward Simpson, quien lo describió en 1951, sin embargo, había sido descrito previamente por los estadístico británicos Karl Pearson en el año 1899 y por G. Udny Yule en 1900.

Los datos que he utilizado en el presente ejemplo son del libro Estadística aplicada básica de David S. Moore. Hay muchos datos disponibles que ilustran este efecto, incluso podríamos utilizar los datos de la serie Numb3rs (Capítulo 9 de la 5ª Temporada).