Quinta regla
Comprende la historia de fondo
—En cada cópula humana, mil millones de espermatozoides se disputan un solo óvulo. Multiplica estas probabilidades por innumerables generaciones… y fuiste tú, solo tú, el que nació. Que aparezca una forma tan específica en este caos de improbabilidad, como convertir el aire en oro…, es el misterio supremo…
—¡Podrías decir lo mismo de cualquier persona en el mundo!
—Sí. Cualquier persona en el mundo… Pero el mundo está tan lleno de personas, tan repleto de estos milagros, que se han convertido en un lugar común y los olvidamos…
A
LAN
M
OORE
,
Watchmen
(23)
H
ace un par de décadas, dos respetados psicólogos, Sheena Iyengar y Mark Lepper, montaron un puesto de degustación de jamón en una exclusiva tienda de California. A veces ofrecían seis variedades de jamón; otras veces, veinticuatro. Los
clientes que los probaban recibían un folleto para comprar el jamón con descuento. Cuando tenían a la disposición de los clientes el surtido más extenso, se acercaban muchos más, pero, al final, pocos de ellos compraban jamón. Cuando la oferta era solo de seis variedades, las ventas eran mayores.
[1]
Este resultado inesperado se hizo viral: habían descubierto algo interesante. ¡La gente reaccionaba mejor cuando había menos opciones! Se convirtió en materia de artículos de psicología pop, de libros y de charlas TED. Era sorprendente, pero parecía plausible. Pocas personas lo hubieran predicho, pero, de alguna forma, al oírlo a todos les parecía que ya lo sabían.
Como economista, siempre me pareció un poco extraño. La teoría económica predice que solemos valorar las opciones extra, y que eso nunca nos desanima a la hora de comprar… Pero la teoría económica podía estar equivocada, así que esto no era lo sorprendente del experimento con el jamón.
Un elemento desconcertante del estudio era que el efecto resultante de ofrecer más opciones era enorme: solo el 3 por ciento de los degustadores de la muestra de veinticuatro variedades aprovechaba el descuento, comparado con el 30 por ciento de la muestra de seis variedades. Eso sugería que, si reducían la oferta, los vendedores multiplicarían por diez sus ventas. ¿Alguien de verdad se lo cree? Draeger’s, el supermercado donde se hizo el experimento, tenían a la venta 300 variedades de jamón y 250 tipos de mostaza. Parecía que les iba bien. ¿Se les estaba escapando algo? Starbucks asegura ofrecer, literalmente, decenas de miles de combinaciones de bebidas espumosas, y también parece que les va bien. Así que me pregunté hasta qué punto era general este descubrimiento. No cabía duda de que era un experimento serio llevado a cabo
por buenos investigadores. Y siempre deberíamos estar dispuestos a ajustar nuestra visión de las cosas a las pruebas, ¿verdad?
Entonces, en una conferencia, conocí a un investigador que me recomendó contactar con un joven psicólogo llamado Benjamin Scheibehenne. Y lo hice. Scheibehenne no tenía razón alguna para dudar del descubrimiento de Iyengar y Lepper, según el cual a la gente le desmotiva tener muchas opciones. Pero había observado los mismos hechos del mundo que yo: muchas empresas con éxito ofrecen un montón de opciones. ¿Cómo casaban estos hechos con el experimento? Scheibehenne tenía una teoría que consistía en que las empresas habían encontrado una forma de ayudar a sus clientes a tomar decisiones complejas. Parece plausible. Quizá tuviera que ver con la familiaridad: a menudo vamos al supermercado para comprar lo que compramos la última vez, en lugar de un nuevo tipo de jamón. Quizá se tratara de cómo señalizaban los pasillos, o cómo organizaban las opciones para que no abrumaran al cliente. Todo esto parecía digno de investigarse, así que Scheibehenne se puso manos a la obra.
[2]
Comenzó por repetir el experimento para tener una base sobre la que empezar a trabajar y explorar diferentes posibilidades. Pero su punto de partida fue muy diferente; no obtuvo ni de lejos el mismo resultado. Iyengar y Lepper habían descubierto que la posibilidad de elegir desmotiva de forma espectacular. Cuando Scheibehenne repitió el experimento no vio nada parecido. Otro investigador, Rainer Greifeneder, había reproducido un estudio similar al de Iyengar y Lepper que se centraba en escoger entre chocolates de lujo y, como Scheibehenne, no obtuvo el resultado original de «la elección es mala». Ambos se juntaron para reunir todos los estudios que
hubiera sobre el efecto «la elección es mala». Había un montón, pero muchos de ellos no habían encontrado a nadie que los publicara.
Cuando recopilaron todos los estudios, publicados e inéditos, el resultado general era una mezcla. Ofrecer más opciones a veces motiva y otras desmotiva. Los estudios publicados solían detectar un efecto considerable, ya fuera positivo o negativo. Los estudios no publicados no solían detectar efecto alguno. ¿El efecto medio? Cero.
[3]
Es inquietante. Hasta el momento nos hemos topado con afirmaciones equívocas que se explican por un propósito específico —la publicidad para Oxfam, los clics para los medios digitales— o por un detalle sutil que se ha pasado por alto, como el uso de diferentes palabras para describir el trágico y prematuro final de un embarazo. En el mundo académico esperamos razonablemente que se detecten los detalles sutiles y que el único propósito específico sea la búsqueda del conocimiento. Tiene sentido ir con pies de plomo con los grupos de presión o con los titulares que solo buscan clics, pero ¿no deberíamos presumir que caminamos por un terreno más sólido cuando abrimos una revista académica? Iyengar y Lepper eran, como he dicho, unos psicólogos muy respetados. ¿Es posible que estuvieran equivocados? Y, de ser así, ¿cómo había ocurrido? ¿Y cómo deberíamos enfrentarnos al siguiente descubrimiento sorprendente que inunde las páginas científicas o las estanterías de los aeropuertos?
Para hallar una respuesta, demos un paso al lado y sopesemos la ensalada de patata más famosa de internet.
Sin duda, no hay mejor forma de recaudar algo de dinero que a
través de Kickstarter. La página web de micromecenazgo tuvo un momento de esplendor cuando en 2012 el Pebble, uno de los primeros relojes inteligentes, recaudó más de 10 millones de dólares. En 2014, un proyecto para una nevera portátil consiguió la extraordinaria cifra de 13 millones de dólares. No cabía duda de que la nevera más molona era la de Swiss Army Knife. Tenía un cargador de USB, una mezcladora para cócteles y altavoces, lo cual atrajo a multitud de benefactores. El reloj inteligente de Pebble se tomó su venganza en 2015, y una nueva campaña recaudó más de 20 millones de dólares para producir un reloj nuevo y mejor.
Pero, en cierto modo, el logro en Kickstarter de Zack «Danger» Brown fue aún más impresionante. Utilizó la página para recaudar 10 dólares y hacer una ensalada de patata… y, en lo que a buen seguro fue uno de los gestos más lucrativos de la historia de la ironía hípster, recaudó 55.492 dólares.
[4]
En la estela de las hazañas de Zack Brown, me pregunté qué proyecto interesante podría colgar en Kickstarter, impaciente por ponerme a contar el dinero a medida que lo ingresaran.
Lo mismo debió de pensar David McGregor. Pedía 3.600 libras para financiar un viaje por Escocia fotografiando los maravillosos paisajes y publicar un libro magnífico…, una forma genial de financiar su arte, y sus vacaciones. Jonathan Reiter era más ambicioso. Su BizzFit anhelaba recaudar 35.000 dólares para crear un servicio de contacto basado en un algoritmo para empleados y empleadores. Shannon Limeburner también tenía una mentalidad empresarial, pero solo pedía 1.700 dólares para confeccionar muestras de una nueva línea de trajes de baño que estaba diseñando. Dos hermanos en Syracuse, Nueva York, pidieron 400 dólares para filmarse mientras aterrorizaban a sus vecinos en Halloween.
Estos proyectos disparatados tenían algo en común: recaudaron exactamente cero dólares. Ninguno de ellos fue capaz de persuadir a extraños, amigos o incluso a su propia familia para que invirtieran un solo centavo.
Mi fuente de inspiración para estas historias de fracaso en Kickstarter fue Silvio Lorusso, un artista y diseñador que vive en Venecia. La página web de Lorusso, Kickended.com, buscaba todos los proyectos que no habían recibido financiación alguna en Kickstarter. (Hay muchos: un 10 por ciento de los proyectos en Kickstarter no llegan a nada, y menos del 40 por ciento recaudan lo suficiente para cumplir con sus objetivos.)
Kickended proporciona un servicio importante. Nos recuerda que lo que vemos a nuestro alrededor no es representativo del mundo; está sesgado de forma sistemática. Cuando hablamos de sesgo solemos pensar en un enfoque ideológico consciente. Pero muchos sesgos están provocados por la forma en que el mundo nos presenta unas historias y nos oculta otras.
Nunca he leído en los medios o en un blog acerca de los intentos de la joven y ambiciosa banda Stereotypical Daydream para recaudar 8.000 dólares en Kickstarter y grabar un disco. («Nuestra banda ha intentado ahorrar dinero de diferentes maneras para grabar un disco en un estudio profesional. Por desgracia, todavía no hemos ahorrado lo suficiente.») Quizá no te sorprenderá saber que la campaña de Stereotypical Daydream les acercó cero dólares a su objetivo.
En cambio, he oído un montón de cosas sobre el reloj Pebble, la nevera más molona y la ensalada de patata. Si no supiera más, podría tener unas expectativas irrealistas sobre lo que puede lograr una campaña en Kickstarter.
No se trata solo de Kickstarter, desde luego. Este tipo de sesgos están por todas partes. La mayoría de los libros que lee
la gente son superventas, pero la mayoría de los libros no son superventas, y la mayoría de los proyectos de libro nunca llegan ni a ser libro. La misma historia se repite en la música, las películas y las ideas empresariales.
Incluso los casos de Covid-19 están sujetos a una atención selectiva: quienes se sienten fatal van al hospital y allí les hacen la prueba; quienes se sienten bien se quedan en casa. Como consecuencia, la enfermedad parece aún más peligrosa de lo que es. Aunque los estadísticos son conscientes de este problema, no hay una forma fácil de resolverlo sin pruebas sistemáticas. Y en las primeras fases de la epidemia, cuando se tomaron las decisiones políticas más complejas, no hubo muchas pruebas sistemáticas.
Hay una conocida historia sobre el matemático Abraham Wald, a quien en 1943 las fuerzas aéreas estadounidenses le preguntaron cómo podrían reforzar sus aviones. Los aviones volvían de sus misiones llenos de agujeros de bala en el fuselaje y las alas; ¿no habría que blindar mejor esos puntos? La respuesta técnica de Wald era muy técnica, pero la idea clave era la siguiente: solo vemos los daños de los aviones que vuelven, ¿qué hay de los aviones que son abatidos? En los aviones que vuelven, pocas veces se ven daños en el motor o en el tanque de gasolina. Eso podría deberse a que esas zonas rara vez son alcanzadas por las balas…, o podría ser que cuando las balas alcanzan esas zonas el avión está condenado. Si solo nos fijamos en los aviones que vuelven —de modo que somos presa del «sesgo de supervivencia»—, nunca comprenderemos bien cuáles son los verdaderos puntos débiles.
[5]
La cuestión va más allá. Incluso la historia del sesgo de supervivencia es un ejemplo del sesgo de supervivencia; no se parece mucho a lo que hizo en verdad Abraham Wald, que fue
escribir un documento de investigación lleno de complejos análisis técnicos. Esto, en gran medida, se olvida. Lo que sobrevive es la historia sobre la idea reveladora del matemático, junto con algunos detalles llamativos. Lo que existía en origen y lo que sobrevive rara vez será lo mismo.
[6]
Esto empieza a darnos una pista sobre lo que pudo ocurrir en el experimento con el jamón. Como la nevera molona, fue un éxito aplastante, pero no sabemos toda la historia. El papel de Benjamin Scheibehenne fue un poco como el de Silvio Lorusso en Kickended: buscó no solo el experimento sobre la elección que fue viral, sino todos los otros que generaron resultados diferentes y que se desvanecieron en la oscuridad. Al hacerlo, pudo llegar a una conclusión muy diferente.
Ten presente la página Kickended cuando sopeses la siguiente historia. En mayo de 2010 mandaron un artículo sorprendente al
Journal of Personality and Social Psychology
. El autor era Daryl Bem, un respetado veterano en el campo de la psicología académica. Lo sorprendente del artículo era que proporcionaba pruebas estadísticas que parecían creíbles sobre una proposición del todo increíble: las personas podían ver el futuro. En total se hicieron nueve experimentos. En uno de ellos, los participantes miraban en una pantalla de ordenador la imagen de dos cortinas. Les dijeron que tras una de las cortinas había una fotografía erótica. Debían intuir detrás de cuál estaba. El participante elegía una y, después de que hubiera decidido, el ordenador asignaba la fotografía de forma aleatoria. Si las respuestas de los participantes eran apreciablemente mejores que la suerte, entonces eran una demostración de precognición. Lo fueron.
[7]
En otro de los experimentos que describía el artículo de Bem, se mostró una lista de cuarenta y ocho palabras a los participantes para comprobar cuántas podían recordar. Luego a algunos participantes les pidieron que practicaran reescribiendo todas las palabras. No debería extrañar que la práctica ayude a recordar, pero en este caso Bem descubrió que la práctica funcionaba aunque la prueba de memoria se hiciera antes y la práctica después.
¿Hasta qué punto debemos tomarnos en serio estos resultados? Hay que tener en cuenta que el artículo de investigación, «Feeling the Future», se publicó en una revista académica reputada después de haber sido revisado por otros académicos. Los experimentos de los que informaba pasaron las pruebas estándares de estadística, que están diseñadas para descartar resultados accidentales. Todo ello nos da algunas razones para creer que Bem demostró la precognición.
No obstante, hay una razón mucho más importante para creer que no lo hizo, por supuesto, y es que la precognición violaría las muy demostradas leyes de la física. Está justificado, por lo tanto, un profundo escepticismo. Como suele decirse, las afirmaciones extraordinarias requieren pruebas extraordinarias.
Aun así, ¿cómo pudo Bem acumular todas estas pruebas publicables de la precognición? Es desconcertante. Aunque quizá lo sea menos si lo relacionamos con la historia de Kickended.
Después de que se publicaran las pruebas de precognición de Bem en el
Journal of Personality and Social Psychology
, se hicieron otros muchos estudios con los métodos de Bem. Ninguno obtuvo pruebas de precognición, pero la revista se negó a publicarlos. (Sí publicó un comentario crítico, pero no
es lo mismo que publicar un experimento.) La razón que esgrimió la revista para rechazarlos fue que «no publicamos réplicas», es decir, que cuando un experimento ha demostrado un efecto no hay lugar para publicar los intentos de verificar ese efecto. En teoría, esto podría parecer razonable: ¿quién quiere leer artículos que confirmen lo que ya sabe? En la práctica, tiene el efecto absurdo de garantizar que, cuando algo que pensábamos que sabíamos resulta ser erróneo, nadie podrá decir nada al respecto. El sorprendente descubrimiento de Bem fue la última palabra.
[8]
Pero fue también la primera. Antes de Bem, dudo seriamente de que ninguna revista reputada hubiera publicado una investigación, por rigurosa que fuera, cuya síntesis afirmara: «Hemos puesto a prueba a cientos de estudiantes para comprobar si podían ver el futuro. No podían».
Esto, por lo tanto, es un sesgo de supervivencia tan contundente como la cobertura de prensa de los proyectos de Kickstarter, o como tratar de reducir los puntos débiles de los aviones examinando únicamente aquellos puntos débiles que no son fatales. De todos los posibles estudios que podían llevarse a cabo, es razonable suponer que a la revista solo le interesaron los que demostraban la precognición. Esto no se debió a un sesgo en favor de la precognición. Era un sesgo en favor de descubrimientos nuevos y sorprendentes. Antes de Bem, el hecho de que los estudiantes no parecieran ser capaces de ver el futuro era algo trivial y sin interés. Después de Bem, el hecho de que los estudiantes no pudieran ver el futuro era un intento de réplica que no era bienvenido en la revista. En otras palabras, solo las pruebas de precognición eran publicables porque solo las pruebas de precognición eran sorprendentes. Los estudios que demostraban que no había pruebas de
precognición eran como los bombarderos que habían recibido impactos en el motor: no importa la frecuencia con la que ocurra eso, no lograrán llegar al lugar donde podamos verlos.
El descubrimiento de que «la elección desmotiva» es mucho más creíble que el de que «los estudiantes pueden ver el futuro», pero, aun así, el experimento del jamón estaba sujeto a una dinámica similar. Imagina que abres una revista de psicología antes del descubrimiento de Iyengar y Lepper y encuentras el siguiente estudio: «En un puesto de un mercado ofrecimos a los clientes diferentes tipos de queso. A veces teníamos veinticuatro variedades; otras veces, solo seis. Los días en que ofrecíamos más tipos de quesos, los clientes eran propensos a comprar un poco más». ¡Qué aburrido! Esto no es en absoluto sorprendente. ¿Quién querría publicarlo? Solo cuando Iyengar y Lepper hicieron un experimento que demostraba lo contrario se convirtió en algo no solo publicable, sino impactante, un exitazo.
Si solo leyéramos los experimentos que se publican en el Journal of Personality and Social Psychology
, podríamos concluir que las personas pueden ver el futuro. Por razones obvias, este tipo particular de sesgo de supervivencia se llama «sesgo de publicación». Los descubrimientos interesantes se publican; los no descubrimientos, o los errores en descubrimientos previos, son mucho más difíciles de publicar.
El descubrimiento de Bem fue la ensalada de patata de 55.000 dólares: extremadamente atípico y, por lo tanto, ampliamente divulgado. Las réplicas no publicadas serían como los intentos de la banda Stereotypical Daydream para financiar su disco: no pasó nada y a nadie le importó.
Excepto que en esta ocasión sí que le importó a alguien.
«El artículo es maravilloso —afirma Brian Nosek a propósito del estudio de Daryl Bem—. Sigue todas las reglas y lo hace de una manera del todo maravillosa.»
[9]
Pero Nosek, psicólogo de la Universidad de Virginia, entendió a la perfección que si Bem seguía todas las reglas de la psicología académica y acababa por, al parecer, demostrar que las personas podían ver el futuro, es que había un error en esas reglas de la psicología académica.
[10]
Nosek se preguntó qué pasaría si se rehicieran de forma sistemática algunos de los experimentos psicológicos más respetados y creíbles. ¿Cuántos resultados seguirían siendo los mismos? Mandó un correo electrónico a investigadores con ideas parecidas y, con una velocidad impresionante, logró formar una red global de casi trescientos psicólogos que colaboraron para verificar estudios que se hubieran publicado en una de tres prestigiosas revistas académicas. Mientras que Benjamin Scheibehenne había profundizado en un campo específico —la relación entre la motivación y la elección—, la red de Nosek quería echar sus redes en muchos más campos. Escogieron un centenar de estudios. ¿Cuántos se verificaban al hacer las réplicas de los experimentos? Sorprendentemente pocos: solo treinta y nueve.
[11]
Esto dejó a Nosek y a la psicología académica con una gran pregunta entre manos: ¿cómo diablos había podido ocurrir?
Parte de la explicación reside en el sesgo de publicación. Igual que con el estudio de Daryl Bem, hay aquí un sesgo sistemático en favor de publicar resultados interesantes, y, por supuesto, es más probable que las casualidades sean más interesantes que los auténticos descubrimientos.
Pero también hay una explicación más profunda. Es la razón por la que Nosek debió pedir ayuda a tantos colegas, en lugar de
pedir a sus becarios que lo verificaran todo. Dado que las revistas más importantes no tenían demasiado interés en publicar los intentos de réplica, sabía que si su equipo de investigación se entregaba en cuerpo y alma a llevar adelante las réplicas sería un suicidio profesional: no conseguirían las publicaciones necesarias para asegurar su futuro en la academia. Los jóvenes investigadores deben «publicar o morir», pues muchas universidades y organismos de investigación se basan en el historial de publicaciones para decidir a quién habría que promocionar o quién debería recibir una beca.
Este es otro ejemplo del problema del conteo de cuerpos en Vietnam que comentamos en el capítulo dos. Es cierto que los buenos investigadores suelen publicar muchas investigaciones que luego son muy citadas por sus colegas. Pero, una vez que son recompensados por la cantidad y la prominencia de sus investigaciones, empiezan a buscar formas de maximizar estos dos factores. Los incentivos perversos se adueñan de la situación. Si obtienes un resultado que parece publicable pero es frágil, la lógica de la ciencia te recomendará que lo rechaces. Pero la lógica de los ascensos y las becas académicas te conminará a publicarlo cuanto antes, y, por el amor de Dios, tampoco hay que ser tan escrupuloso.
Así que no solo las revistas están predispuestas a publicar resultados sorprendentes, es probable que también los investigadores que se enfrentan al «publicar o morir» envíen resultados sorprendentes que quizá no superarían un escrutinio profundo.
El ilusionista Derren Brown hizo en cierta ocasión un vídeo sin
manipular en el que tiraba una moneda al aire y salía cara diez veces seguidas. Más tarde, Brown explicó el truco: esta asombrosa secuencia llegó después de nueve extenuantes horas de filmación, entonces se materializó la cadena de diez caras seguidas.
[12]
Hay una posibilidad entre 1.024 posibilidades de que salgan diez caras si tiras una moneda al aire diez veces. Si la lanzas unos cuantos miles de veces, casi está garantizado que en algún momento saldrán diez caras consecutivas. Pero Brown podía haber enviado sus resultados sorprendentes a la «Revista de tirar monedas al aire», quizá con el atractivo título (sugerido por los periodistas Jacob Goldstein y David Kestenbaum) de «¡Cara! Sesgo de la moneda en los cuartos de dólar estadounidenses en 1977».
[13]
Un artículo de este tipo sería fraudulento, y nadie cree que este sesgo de publicación tan extremo y premeditado explique el gran número de estudios no replicables que Nosek y sus colegas revelaron. Pero hay algunas sombras.
¿Y si 1.024 investigadores investigaran, de manera individual, el lanzamiento de monedas, y uno de ellos obtuviera el sorprendente resultado de diez caras seguidas? Matemáticamente es la misma situación, pero desde el punto de vista del sorprendido investigador en cuestión no habría hecho nada de lo que pudieran culparle. Parece improbable que tantos investigadores se hayan molestado en estudiar el lanzamiento de monedas, pero no sabemos cuántas personas intentaron y no lograron demostrar la precognición antes de que Daryl Bem tuviera éxito.
Las sombras también pueden aparecer en un laboratorio de investigación individual. Por ejemplo, un científico podría hacer un reducido estudio exploratorio. Si obtuviera un resultado impresionante, ¿por qué no publicarlo? Pero si el
estudio fracasara, podría considerarlo una experiencia de aprendizaje y probar con otra cosa. Esta conducta no parece incongruente al lego, y tampoco es irracional para los investigadores que la adoptan, pero no deja de ser un sesgo de publicación, y significa que las casualidades tienen una posibilidad desproporcionadamente mayor de que se publiquen.
Otra posibilidad es que el investigador haga el estudio y que los resultados sean prometedores pero a nivel estadístico no tengan la solidez suficiente para ser publicados. ¿Por qué no seguir, reclutar a más participantes, reunir más datos y ver si se confirman los resultados? De nuevo, parece algo razonable. ¿Qué hay de malo en reunir más datos? ¿No significaría eso que el estudio se está acercando cada vez más a la verdad? No hay nada malo en hacer un estudio más amplio. En general, cuantos más datos, mejor. Pero si los datos se recaban poco a poco, haciendo las pruebas al tiempo que se avanza, entonces las pruebas estadísticas estándares no son válidas. Estas pruebas presumen que se han recabado los datos y luego se han verificado, lo cual no es lo mismo que recabar algunos datos, verificarlos, y luego, quizá, recabar algunos datos más.
Para comprender el problema, imagina que está a punto de empezar un partido de baloncesto y que alguien te pregunta: «¿Hasta qué punto debe ser convincente una victoria para que podamos decir que el equipo ganador es mejor que el otro y no solo que ha tenido más suerte un día en concreto?». No hay una respuesta para ello, al fin y al cabo la suerte puede llegar a ser abusiva. Pero podríamos decidir, por ejemplo, que un margen de diez puntos al acabar el partido es lo bastante convincente. Esto es, más o menos, lo que hacen las pruebas estadísticas estándares para decidir si un efecto es lo bastante
«significativo» para publicarse.
Pero ahora imagina que el organizador del partido de baloncesto obtendrá una bonificación si uno de los equipos, no importa cuál, es mejor. Así que, sin decírnoslo, decide que si cualquier equipo adquiere una ventaja de diez puntos, hará que el partido acabe antes de hora. Y si cuando suena el pitido final los dos equipos están distanciados por siete, ocho o nueve puntos, dará más tiempo para ver si la diferencia llega a diez. Al fin y al cabo, ¡está a apenas una canasta o dos de demostrar la superioridad de uno de los equipos!
Es obvio que esto sería un fraude en la prueba, pero parece que este tipo de fraudes son bastante habituales en la práctica.
[14]
Un tercer problema es que los investigadores también tienen diferentes opciones para analizar los datos. Quizá el estudio se cumple con los hombres pero no con las mujeres.
(24)
Quizá el estudio se sostiene si el investigador hace ajustes estadísticos respecto a la edad, o respecto a la renta. Quizá haya algunos casos aislados atípicos y el estudio se sostiene solo si estos se incluyen, o solo si se excluyen.
O quizá el científico puede elegir diferentes factores que medir. Por ejemplo, un estudio sobre cómo el uso de las pantallas puede afectar al bienestar de los jóvenes podría medir de distintas formas tanto el uso de la pantalla como el bienestar. El bienestar se puede medir preguntando a los participantes si han sufrido períodos de ansiedad; o se les podría preguntar si se sienten satisfechos con su vida; o se podría preguntar a los padres cómo creen que le va a su hijo o hija. El tiempo frente a la pantalla se podría medir directamente con una aplicación, o, indirectamente, con una encuesta; o, quizá, en lugar del «tiempo frente a la pantalla» se podría medir la «frecuencia de
uso de las redes sociales». Ninguna de estas elecciones es buena o mala, pero, de nuevo, las pruebas estadísticas estándares presumen que el investigador ha tomado una elección antes de recabar los datos, luego ha recabado los datos y entonces ha hecho el análisis. Si el investigador hace varias pruebas, y luego elige, es mucho más probable que haya casualidades llamativas.
Incluso si el investigador hace solo una prueba, es más fácil que se cuelen casualidades si la realiza después de recabar los datos y formarse una idea de ellos. Esto nos lleva a otro tipo de sesgo de publicación: si una forma particular de analizar los datos no produce resultado alguno, y otra forma tiene un resultado más interesante, lo más probable es que se informe y se publique el método más interesante.
En ocasiones, los científicos denominan a esta práctica «HARKing», donde HARK (por sus siglas en inglés) es un acrónimo de «hipotetizar después de saber los resultados». Quiero dejar claro que no hay nada malo en recabar datos, analizarlos para encontrar patrones y luego construir una hipótesis. Forma parte de la ciencia.
Pero entonces hay que recabar más datos para verificar la hipótesis. Poner a prueba la hipótesis con las cifras en las que nos hemos basado para hacerla en primer lugar no es correcto.
[15]
Andrew Gelman, un estadístico de la Universidad de Columbia, aboga por la expresión «el jardín de los senderos que se bifurcan», que es el título de un relato de Jorge Luis Borges. Toda decisión sobre qué datos recabar y cómo analizarlos es similar a estar en un camino que se bifurca y tener que decidir qué dirección tomar. Lo que parecen unas decisiones sencillas
se pueden convertir muy rápido en un laberinto de diferentes posibilidades. Si optas por una combinación de decisiones llegarás a una conclusión; si optas por otra, igualmente razonable, verás un patrón de datos muy diferente.
[16]
Un año después de que se publicaran los datos de Daryl Bem, tres psicólogos publicaron una demostración de hasta qué punto se podían descarriar los investigadores usando métodos estadísticos estándares en combinación con estos deslices y torpezas en apariencia triviales.
[17]
Los investigadores, Joseph Simmons, Uri Simonsohn y Leif Nelson, «demostraron» que escuchar «When I’m Sixty-Four» de los Beatles rejuvenecía casi dieciocho meses.
[18]
Sé que te picará la curiosidad: ¿cómo lo hicieron? Recabaron varios datos de cada participante, entre ellos la edad, el género, lo mayor que se sentía, la edad del padre y la edad de la madre, junto con otros varios que casi podríamos considerar irrelevantes. Analizaron todas las combinaciones posibles de estas variables, y luego analizaron también los datos en conjuntos de diez participantes, comprobando en cada momento si obtenían un resultado significativo. Al final se dieron cuenta de que si hacían un ajuste estadístico según la edad de los padres, pero no de las madres, y si no superaban los veinte participantes, además de descartar otras variables, podían demostrar que aquellos que, de manera aleatoria, habían escuchado «When I’m Sixty-Four» eran con diferencia más jóvenes que el grupo de control al que, de manera aleatoria, le habían hecho escuchar otra canción. Todo era un sinsentido, desde luego, pero un sinsentido que guardaba un parecido increíble con investigaciones que se habían publicado y se habían tomado en serio. ¿Los investigadores genuinos llegarían a cruzar la línea de una práctica rigurosa para obtener
unos resultados amañados? Probablemente no muy a menudo. Pero quienes lo hicieran recibirían más atención. Y la mayoría que no lo hiciera cometería versiones más sutiles de estos pecados estadísticos incluso sin saberlo.
Los métodos estadísticos estándares están pensados para excluir la mayoría de los resultados que se deban a la casualidad.
[19]
Pero una combinación de sesgo de publicación junto con prácticas de investigación laxas significa que podemos esperar que entre los verdaderos descubrimientos haya un gran número de accidentes estadísticos.
Cómo mentir con estadísticas
, de Darrell Huff, describe cómo el sesgo de publicación puede ser utilizado como arma por parte de una corporación amoral más interesada en el dinero que en la verdad. Con su cinismo característico, Huff explica que un fabricante de pasta de dientes puede publicitar sin incurrir en engaño que su producto es de lo más efectivo limitándose a hacer experimentos, «dejando fuera de la vista» los resultados que no interesan y esperando a que aparezca un resultado positivo.
[20]
Esto, sin duda, es un riesgo, y no solo en la publicidad, sino también en los ensayos clínicos que respaldan tratamientos farmacéuticos potencialmente lucrativos. Pero ¿el sesgo de publicación accidental puede comportar un riesgo mayor que el sesgo de publicación utilizado como arma?
En 2005, John Ioannidis causó cierto escándalo con un artículo titulado «Por qué la mayoría de los descubrimientos que se publican son falsos». Ioannidis es un «metainvestigador», alguien que investiga la naturaleza misma de la investigación.
(25)
Conjeturó que el efecto acumulativo de sesgos en apariencia menores podría provocar que los
resultados falsos sobrepasaran fácilmente a los verdaderos. Eso fue cinco años antes de que el
Journal of Personality and Social Psychology
publicara la investigación de Daryl Bem sobre la precognición, lo cual llevó a Brian Nosek a replicarlo. A buen seguro la precognición no existe, pero Ioannidis vio de lejos la llegada de la crisis.
[21]
Confieso que cuando supe por primera vez de la investigación de Ioannidis, me pareció una hipérbole extraordinaria. Es evidente que todas las investigaciones científicas son provisionales, todos cometemos errores, y a veces se publican artículos pésimos, pero sin duda no se podía sugerir que más de la mitad de los resultados empíricos que se hacían públicos eran falsos, ¿no? Pero después de entrevistar a Scheibehenne y estudiar lo que había descubierto en la literatura sobre la elección, empecé a dudar. Más tarde, con los años, tuve que aceptar poco a poco (junto con otros, también escépticos al principio) que Ioannidis había puesto el dedo en la llaga.
Aunque el estudio sobre la precognición de Bem fue comprensiblemente famoso, muchos otros descubrimientos psicológicos sorprendentes eran bien conocidos por el público en general gracias a libros como Pensar rápido, pensar despacio
(del premio Nobel Daniel Kahneman), El poder de la presencia
(de la psicóloga Amy Cuddy) y Willpower
(del psicólogo Roy Baumeister y el periodista John Tierney). Estos descubrimientos daban en el mismo blanco que el experimento con el jamón: eran lo bastante extraños para ser memorables, pero lo bastante plausibles para no descartarlos.
Baumeister es famoso en la psicología académica por los estudios en que demuestra que el autocontrol es un recurso limitado. En un experimento, los participantes que debieron contenerse de comer galletas de chocolate recién hechas (les
dieron unos pocos rábanos a cambio) abandonaron antes una tarea frustrante que les encargaron a continuación.
[22]
Cuddy descubrió que pedir a los participantes que adoptaran «poses poderosas» —por ejemplo, las manos en las caderas, como Wonder Woman— aumentaba los niveles de testosterona y reducía los de cortisol, la hormona del estrés.
[23]
Kahneman citó la investigación del efecto
priming
(la influencia de una idea sobre una acción) de John Bargh. Pidieron a unos participantes jóvenes que resolvieran un crucigrama. Algunos de ellos fueron expuesto a palabras que hacían pensar en la tercera edad, como
calvo
,
jubilación
,
arrugas
,
Florida
y
gris
. Los jóvenes que no estuvieron expuestos a estas palabras en particular enfilaron con brío el pasillo para ir a hacer otra tarea; quienes sí fueron expuestos a ellas recorrieron el pasillo a un paso significativamente más lento.
[24]
Estos resultados son extraordinarios, pero, como Kahneman escribió sobre esta investigación, «La incredulidad no es una opción. Los resultados no son invenciones, ni carambolas estadísticas. No tenemos otra elección que la de aceptar que las principales conclusiones de estos estudios son verdaderas».
Ahora nos damos cuenta de que la incredulidad sí es una opción. Kahneman también se da cuenta de ello. El sesgo de publicación, y, a un nivel más general, el jardín de los senderos que se bifurcan, significa que muchas de las investigaciones que parecen rigurosas a primera vista, tanto a los espectadores como a los propios investigadores, pueden generar conclusiones espurias. Estos estudios —sobre la fuerza de voluntad, sobre la fuerza de la pose y sobre el efecto priming
— han resultado ser muy difíciles de replicar. En todos los casos los investigadores han defendido los descubrimientos originales, pero la posibilidad de que se trate de accidentes
estadísticos parece cada vez más razonable.
El mismo Daniel Kahneman llamó la atención sobre la importancia de esta cuestión cuando escribió una carta abierta a los psicólogos de campo advirtiéndoles de un futuro «desastre» si no lograban mejorar la credibilidad de sus investigaciones.
[25]
Toda esta saga —el artículo original de Ioannidis, el descubrimiento que nadie se cree de Bem, los intentos de replicar las investigaciones de Baumeister, Cuddy y Bargh, y, como golpe de gracia, el descubrimiento de Nosek de que (como ya había dicho Ioannidis) era más probable que los estudios psicológicos más preeminentes no pudieran replicarse— se ha descrito en ocasiones como la «crisis de replicación» o «crisis de replicabilidad».
Después de conocer Kickended, quizá nada de esto debería haber sido una sorpresa, pero sigue siendo chocante. Los resultados psicológicos que son famosos lo son no porque se hayan demostrado rigurosamente sino porque son interesantes. Los resultados debidos a una casualidad tienen más posibilidades de ser sorprendentes, y todavía es más probable que alcancen aquel nivel contraintuitivo (no son demasiado absurdos pero tampoco demasiado predecibles) que los hace tan fascinantes. El filtro de lo «interesante» es poderosísimo.
El sesgo de publicación y el sesgo de supervivencia son bastante inofensivos si solo producen distorsiones leves de nuestra visión del mundo, de manera que quien se prepare para una entrevista quizá buscará un hueco donde hacer la pose de Wonder Woman. Incluso si muchos aspirantes a
emprendedores son ilusamente optimistas sobre sus probabilidades de recaudar dinero a través de Kickstarter, todos disfrutamos del fruto de las exitosas y nuevas ideas empresariales por las que una persona más racional no hubiera dejado su trabajo para llevarlas adelante. Y pocos científicos estaban dispuestos a aceptar el supuesto descubrimiento de la precognición de Daryl Bem, por una razón que resumió Ben Goldacre, un experto en la medicina basada en pruebas: «No me interesó demasiado, por la misma razón que no le interesó a nadie. Si los seres humanos de verdad pudiéramos ver el futuro, es de suponer que ya lo sabríamos; las afirmaciones extraordinarias exigen pruebas extraordinarias, no hallazgos aislados».
[26]
Pero Ben Goldacre cree que lo que está en juego es algo mucho más importante, y a mí también me lo parece. Este sesgo podría tener consecuencias muy serias tanto para nuestro dinero como para nuestra salud.
Primero, el dinero. La literatura empresarial —un campo en el que confieso aventurarme— está repleta de ejemplos del sesgo de supervivencia. En mi libro Adáptate
comentaba por encima el libro En busca de la excelencia
de Tom Peters y Robert Waterman, un superventas que se publicó en 1982 y que impartía lecciones de gestión y administración después de estudiar cuarenta y tres de las empresas más exitosas de aquella época. Si de verdad eran ejemplos de una gestión brillante, cabría suponer que su éxito perduraría. Si, en cambio, eran las ganadoras de una lotería invisible, las beneficiarias de unos golpes aleatorios de la buena suerte, entonces cabría suponer que la buena suerte se les acabaría.
En efecto, al cabo de dos años casi un tercio de ellas tenían graves problemas económicos. Es fácil burlarse de Peters y
Waterman —y algunos lo hicieron—, pero la verdad es que en una economía sana no es oro todo lo que reluce. Las estrellas corporativas brillan en el cielo, y luego se queman. A veces, tienen cualidades duraderas; otras veces, cualidades efímeras, y otras, no tienen ninguna cualidad pero algo de suerte. Es muy aconsejable fijarse en las historias de éxito y tratar de aprender algo, pero debemos ser prudentes. Como dice la memorable frase de Nassim Taleb, es fácil que seamos «engañados por la aleatoriedad».
Quizá todas estas publicaciones empresariales sean inocuas: cuando los datos diarios de la tienda contradicen las enseñanzas de los libros, siempre ganarán los datos. Aunque el experimento con el jamón se hizo famoso entre los académicos, no hay muchas señales de que las empresas se tomaran en serio el descubrimiento de «la elección es mala» cuando debían llenar las estanterías. Aun así, no podemos evitar sospechar que, cuando los datos buenos son más raros, las grandes decisiones se toman basándose en el sesgo de supervivencia.
En las finanzas, el problema puede ser peor. Un programa de la televisión noruega ilustró esto brillantemente en 2016 organizando un concurso de compra de acciones en el que los inversores debían comprar diversas acciones noruegas por un valor de 10.000 coronas noruegas, unos 900 euros. La composición de los concursantes era diversa: un par de corredores de bolsa que afirmaban con confianza «cuanto más sabes, mejor lo harás»; los presentadores del programa; un astrólogo; dos blogueras sobre asuntos cosméticos que reconocieron no haber oído antes el nombre de ninguna de las empresas; y una vaca llamada Gullros que elegía las acciones caminando por un campo marcado con los nombres de las empresas y mostraba su convencimiento defecando sobre la
empresa más relevante.
El astrólogo se llevó la peor parte; los profesionales lo hicieron un poco mejor, igualando el rendimiento de la vaca Gullros (ambos, los profesionales y la vaca, obtuvieron un respetable 7 por ciento de rentabilidad en un período de tres meses); las blogueras lo hicieron aún mejor…, pero los ganadores de lejos fueron los presentadores, con una rentabilidad de casi el 25 por ciento. ¿Por qué lo hicieron tan bien? Simple: no eligieron solo una vez. En secreto, lo hicieron veinte veces, así que escogieron veinte carpetas de valores distintas. Pero solo mostraron al público la que rindió mejor. Parecía que eran corredores experimentados hasta que revelaron el truco. El sesgo de supervivencia se quedó con todo.
[27]
Teniendo esto en cuenta, es difícil evaluar a un gestor de inversiones que elige acciones u otros productos financieros. Nos convencerán de que son unos genios, pero lo único que pueden mostrar es su historial de inversiones. «Mi fondo rindió por encima del mercado el año pasado» es todo lo que pueden decirnos. El problema es que solo vemos los éxitos, junto con la alegría con remordimientos por algún desastre ocasional. Los fondos de inversión que no rinden suelen quebrar, se fusionan con otros o les hacen un lavado de cara. Una gran empresa de inversión ofrece diversos fondos, y publicitará aquellos que han tenido éxito en el pasado. El programa noruego condensaba y exageraba el proceso, pero no te quepa duda de que, cuando los directores de los fondos publicitan sus resultados estelares, no es el resultado de una muestra aleatoria de los fondos en oferta.
El sesgo de supervivencia distorsiona incluso algunos estudios sobre el rendimiento de las inversiones. Estos estudios
suelen fijarse en los «fondos que existen hoy», sin reconocer del todo ni ajustarse al hecho de que cualquier fondo que siga existiendo es un superviviente, lo cual introduce el sesgo de supervivencia. Burton Malkiel, economista y autor de
Un paseo aleatorio por Wall Street
, trató una vez de calcular hasta qué punto el sesgo de supervivencia mermaba el rendimiento de los fondos supervivientes. Su cálculo: un sorprendente 1,5 por ciento anual. Quizá no parezca mucho, pero a lo largo de toda una vida de inversión es un factor de dos: la pensión que hemos ahorrado de (por ejemplo) 100.000 euros, acaba siendo de 50.000 euros. En otras palabras, si ignoras todos los fondos de inversión que desaparecen en silencio, el rendimiento aparente es dos veces mejor que el real.
[28]
El resultado es convencer a los clientes de que inviertan en fondos gestionados activamente, lo cual, con frecuencia, implica honorarios extra, cuando les iría mejor si invirtieran en un fondo de bajo coste que invierte en el mercado como un todo. Esa es una decisión que vale miles de millones de dólares de la economía estadounidense; si es un error, es un error que cuesta miles de millones de dólares.
[29]
Esto por lo que respecta al dinero. ¿Qué hay de la salud? Consideremos la cuestión de vida o muerte de qué tratamientos funcionan y cuáles no. La prueba controlada aleatoria (RCT, por sus siglas en inglés) a menudo se describe como el «patrón oro» de las pruebas médicas. En una RCT, unas personas reciben el tratamiento que está a prueba y otras, escogidas al azar, reciben un placebo o el tratamiento convencional. Una RCT es la mejor forma de verificar un nuevo tratamiento médico, pero si la RCT está sujeta al sesgo de publicación no tendremos una idea general de todas las pruebas que se han hecho, y nuestras conclusiones pecarán de parcialidad.
[30]
Por ejemplo, en 2008 un análisis rápido de varias medicaciones antidepresivas descubrió que cuarenta y ocho pruebas tenían un efecto positivo, y otras tres no mostraban efecto positivo alguno. Parece algo bastante alentador, hasta que ponderamos el riesgo de sesgo de publicación. Así que los investigadores encargados de este análisis ampliaron la búsqueda y desenterraron veintitrés pruebas no publicadas, de las cuales veintidós obtuvieron un resultado negativo según el cual el fármaco no ayudó a los pacientes. También descubrieron que once de las pruebas que parecían positivas en los artículos que las describían, de hecho, generaron resultados negativos en los sumarios que se presentaron al organismo regulador, la Administración de Medicamentos y Alimentos de Estados Unidos. Los artículos se las habían arreglado para seleccionar los datos convenientes y descartar los que no encajaban, de forma que presentaron una imagen en apariencia positiva de un fármaco que, de hecho, no había sido efectivo. La cifra correcta, por lo tanto, no era 48-3 en favor de los antidepresivos que funcionaban, sino 38-37. Quizá los antidepresivos funcionaban, al menos en ocasiones y para algunas personas, pero es justo decir que los resultados publicados no reflejaban fielmente los experimentos que se habían llevado a cabo.
[31]
Eso es importante. Se malgastan miles de millones de dólares y se pierden cientos de miles de vidas a causa del sesgo de publicación, cuando tomamos decisiones sin conocer todos los datos: los fondos de inversión que quebraron, los emprendedores de Silicon Valley que nunca pasaron de la fase del «garaje», los estudios académicos que nunca se publicaron y las pruebas clínicas que se quedaron en la cuneta.
Hasta aquí, este capítulo ha sido el relato de una catástrofe. El lado positivo es que ahora estos problemas se comprenden y se valoran mucho mejor que hace cinco años. Así que centrémonos en ese lado positivo un momento y preguntémonos si hay esperanza de mejorar.
Para los investigadores, está claro cómo debería ser esta mejora: deben tener en cuenta la parte Kickended de la investigación. Deben ser transparentes con los datos que se han recabado pero no se han publicado, las pruebas estadísticas que se llevaron a cabo pero luego se dejaron de lado, las pruebas clínicas que desaparecieron en combate, y los estudios que generaron resultados aburridos y fueron rechazados por las revistas o guardados en un cajón mientras los investigadores se dedicaban a algo más fructuoso.
Quienes escribimos sobre las investigaciones tenemos una responsabilidad similar: no solo informar de resultados nuevos y sorprendentes, sino contextualizarlos con lo que se ha publicado antes y, preferentemente, con lo que se debería haber publicado y languidece en la oscuridad.
El ideal estaría en que fuéramos capaces de elevarnos por encima del «jardín de los senderos que se bifurcan» de Andrew Gelman y viéramos el laberinto desde arriba, incluidos los caminos sin salida y los senderos menos transitados. Obtenemos esta visión cenital cuando disponemos de toda la información relevante y de una forma fácil de asimilar.
Nos queda mucho para llegar a eso, pero hay algunas señales de mejora. Es un proceso lento e incompleto, pero sigue siendo una mejora. En medicina, por ejemplo, el Comité Internacional de Editores de Revistas Médicas declaró en 2005 que las mejores revistas no publicarían ensayos clínicos que no se hubieran registrado previamente. Esto significa que, antes de
llevar a cabo el ensayo, los investigadores deben explicar en una página web pública qué tienen pensado hacer y cómo van a analizar los resultados. Este registro previo es una corrección importante del sesgo de publicación, porque significa que los investigadores pueden ver los casos en los que se planificó un ensayo pero luego, por alguna razón, los resultados se extraviaron. También debería permitir que leyeran el plan inicial y luego verificaran que se ha seguido el plan para analizar los datos, que no se cambió cuando ya se habían reunido los datos.
El registro previo no es una panacea. Es un reto particular para los estudios de campo en las ciencias sociales que con frecuencia requiere que los investigadores se basen en algún proyecto dirigido por el gobierno o por una organización caritativa. Estos proyectos evolucionan con el tiempo de maneras que los investigadores no pueden controlar o predecir. E incluso cuando las revistas médicas exigen el registro previo, quizá no cumplan con sus propias condiciones.
[32]
Ben Goldacre y sus colegas del Centro para la Medicina Basada en Pruebas de la Universidad de Oxford se dedicaron durante varias semanas a analizar la publicación de nuevos artículos en las revistas médicas más importantes. Detectaron cincuenta y ocho artículos que no habían cumplido con las condiciones que habían acordado las revistas; por ejemplo, ensayos clínicos que habían especificado previamente que analizarían ciertos resultados para los pacientes pero que luego cambiaron de estrategia e informaron de otros resultados. Goldacre y sus colegas mandaron cartas exigiendo correcciones a los editores, pero, en lugar de publicarlas, las rechazaron.
[33]
Es desalentador darse cuenta de que los estándares no se
cumplen como deberían, pero quizá no sea sorprendente, puesto que todo el sistema está autorregulado por los estándares de una comunidad profesional y no está gobernado por una figura central y salomónica. Y a mi parecer la situación ha mejorado mucho durante estas dos últimas décadas: hay más concienciación, se señalan las malas prácticas y es mejor tener estándares que no se cumplen en su totalidad que no tener estándares en absoluto. Han aparecido revistas como
Trials
, lanzada en 2006, que publican los resultados de cualquier ensayo clínico, con independencia de si el resultado es positivo o negativo, fascinante o aburrido, lo que garantiza que ningún estudio científico languidezca sin publicarse solo porque en el mundo de la investigación no parecía lo bastante rompedor. Tenemos una gran oportunidad para lograr más cosas con herramientas automatizadas, como la identificación automática de ensayos que se han dejado de lado, estudios que se registraron por anticipado pero no se publicaron, o la identificación de estudios que citan publicaciones anteriores que, desde entonces, se han actualizado, corregido o retirado.
[34]
En psicología, el escándalo de la precognición puede haber tenido un resultado positivo. Los psicólogos académicos quieren publicar, por descontado, pero la mayoría de ellos no quieren producir ciencia basura, quieren descubrir la verdad. La crisis de la replicación parece haber mejorado la conciencia de unos buenos estándares de investigación: da más zanahorias para recompensar a quien replica experimentos y más palos a las investigaciones deficientes.
Hay señales alentadoras de que cada vez más investigadores dan la bienvenida a los intentos de réplica. Por ejemplo, en 2010 los politólogos Brendan Nyhan y Jason Reifler publicaron
un estudio sobre lo que se conoce como efecto «tiro por la culata»: es decir, que es más probable creer una afirmación falsa si nos muestran un hecho que la desmienta. Esto provocó un pánico moral entre algunos periodistas, sobre todo después del ascenso de Donald Trump. ¡La verificación solo empeora las cosas! Era uno de esos puntos perfectos de equilibro contraintuitivo. Pero Nyhan y Reifler impulsaron más estudios, y estos sugieren que el efecto tiro por la culata es inusual y que la verificación, de hecho, sí que ayuda. Una de las conclusiones fue la siguiente: «En general, desmentir afirmaciones falsas provoca que las creencias de la gente sean más rigurosas». El propio Nyhan ha citado esta conclusión en Twitter cuando se topa con personas que se basan en su artículo original sin tener en cuenta los estudios posteriores.
[35]
Muchos estadísticos creen que esta crisis apunta a la necesidad de repensar las mismas pruebas estadísticas estándares: es decir, que el mismo concepto de «significación estadística» es profundamente erróneo. En el ámbito matemático, la prueba es bastante simple. Empezamos presumiendo que no hay efecto alguno (el fármaco no funciona; la moneda no está trucada; la precognición no existe; las muestras de seis y veinticuatro variedades de jamón son igual de atractivas), y luego nos preguntamos lo improbables que son los datos observados. Por ejemplo, si presumimos que la moneda no está trucada y la lanzamos diez veces, esperamos que salga cara cinco veces, pero no nos sorprendería que salieran seis o incluso siete caras. Nos quedaríamos de piedra si saliera cara diez veces seguidas, y dado que, aleatoriamente, esto solo sucede una vez cada 1.024, nos preguntaríamos de verdad si la moneda no está trucada. Las pruebas de significación estadística se fundamentan en el mismo principio:
presumiendo que no hay ningún efecto, ¿son sorprendentes los datos que hemos recabado? Por ejemplo, cuando se pone a prueba un fármaco, el análisis estadístico comienza con la presunción de que no funciona; al observar que muchos pacientes que lo toman mejoran respecto a quienes toman el placebo, revisamos la presunción. En general, si las probabilidades de observar aleatoriamente datos como mínimo tan extremos como los que recabamos son menores del 5 por ciento, los resultados son lo bastante «significativos» para darle la vuelta a la presunción: podemos concluir, con un grado de confianza suficiente, que el fármaco funciona, que una muestra de muchos tipos de jamón desalienta las compras y que existe la precognición.
Los problemas son evidentes. El 5 por ciento es una cifra del todo arbitraria —¿por qué no el 6 o el 4 por ciento?— y nos invita a pensar en términos de blanco o negro, aprobado o fracasado, en lugar de aceptar diferentes niveles de incertidumbre. Y si el párrafo precedente te ha parecido confuso, no te preocupes. Conceptualmente, la significación estadística es desconcertante, casi inversa: nos dice la probabilidad de observar datos según una teoría particular, la teoría de que no hay efecto. Pero lo que en realidad queremos saber es lo contrario, la probabilidad de que una teoría particular sea verdad según los datos con los que contamos. Mi instinto me dice que la significación estadística es un concepto inútil y que podríamos encontrar algo mejor, pero otros son más prudentes. John Ioannidis —el del artículo «La mayoría de los descubrimientos que se publican son falsos»— sostiene que, a pesar de los defectos del método, es «un obstáculo conveniente a las afirmaciones infundadas».
Por desgracia, no hay una sola técnica estadística que haga
desaparecer todos estos problemas. El viaje hacia una ciencia más rigurosa requiere muchos pasos, y al menos estamos dando algunos de ellos. Hace poco tuve la oportunidad de entrevistar a Richard Thaler, premio Nobel de Economía, que ha colaborado con Daniel Kahneman y muchos otros psicólogos. Me sorprendió lo bien situado que estaba para evaluar la psicología desde fuera. «Creo que la crisis de replicación ha sido algo muy bueno para la psicología —me dijo—. Hay una mejor higiene.»
[36]
Brian Nosek, por su parte, declaró a la BBC: «Creo que si llevamos a cabo otro gran proyecto de replicabilidad dentro de cinco años veremos una mejora espectacular en este campo».
[37]
En los primeros capítulos de este libro he citado numerosos estudios psicológicos sobre el razonamiento motivado y la asimilación sesgada de la información. Quizá ahora te preguntes: ¿cómo sé que esos estudios son creíbles?
La respuesta honesta es que no puedo estar seguro del todo. Cualquier investigación experimental que cito tiene cierta probabilidad de ser el próximo experimento del jamón, o, mucho peor, el próximo descubrimiento de que escuchar «When I’m Sixty-Four» nos hará más jóvenes. Pero cuando leo los estudios que he descrito, intento poner en práctica el consejo de estas últimas páginas. Intento comprender si el estudio encaja con el panorama general de lo que sabemos o si es un extraño caso aparte. Si existen veinte o treinta estudios de diferentes académicos que utilizan métodos distintos, y todos apuntan hacia una conclusión similar —por ejemplo, que los poderes del razonamiento lógico están determinados por nuestras creencias políticas—, me preocupa menos que uno de
los experimentos en concreto resulte ser una casualidad. Si un descubrimiento empírico se demuestra en la teoría, en la práctica y en el laboratorio, eso es tranquilizador.
En gran parte de las cuestiones, la mayoría de nosotros no nos zambulliremos en estudios académicos. Confiamos en los medios para que nos den un resumen digerible sobre el estado del conocimiento científico. El periodismo científico es como cualquier otro tipo de periodismo: algunos artículos son buenos y otros son malos. Encontrarás repeticiones superficiales y sensacionalistas de comunicados de prensa que ya son en sí mismas superficiales y sensacionalistas. O encontrarás periodismo científico que explica los hechos, los pone en contexto y le planta cara al poder. Si eres buen lector, no te será difícil detectar la diferencia. Pregúntate si el artículo sobre la investigación ha explicado con claridad lo que se mide. ¿El estudio se hizo con humanos? ¿O con ratones? ¿O en una placa de Petri? Un buen periodista será claro. Después: ¿cuál es la dimensión del efecto? ¿Ha sido una sorpresa para otros investigadores? Un buen periodista dedicará suficiente espacio para explicarse y, a causa de ello, el artículo será mucho más divertido de leer, de forma que satisfará tu curiosidad y te ayudará a comprender.
(26)
Si tienes dudas, puedes buscar segundas opiniones: casi cualquier descubrimiento en la ciencia o en las ciencias sociales será rápidamente detectado y digerido por los académicos y otros especialistas, que colgarán su opinión en la red. Los periodistas científicos creen que internet ha mejorado su profesión: en una encuesta a un centenar de periodistas científicos europeos, dos tercios estaban de acuerdo con esta idea, y menos del 10 por ciento estaba en desacuerdo.
[38]
Tiene sentido. Internet ha facilitado la lectura de artículos de
revista, ha facilitado el acceso a revisiones sistemáticas y ha facilitado el poder acceder a otros científicos para tener una segunda opinión.
Si el artículo que lees es sobre salud, hay un lugar que no debes dejar de visitar para una segunda opinión: la Cochrane Collaboration. El nombre proviene de Archie Cochrane, médico, epidemiólogo y defensor de mejores pruebas para la medicina. En 1941, cuando Cochrane fue capturado por los nazis y se convirtió en prisionero de guerra, improvisó un ensayo clínico. Fue una combinación impresionante de valentía, determinación y humildad. El campo de prisioneros estaba lleno de personas enfermas —Cochrane era uno de ellos— y sospechó que la enfermedad la provocaba una deficiencia dietética, pero era consciente de que no sabía lo bastante para prescribir un tratamiento. En lugar de caer en la desesperación o seguir una corazonada, se las arregló para organizar a sus compañeros presos y probar los efectos de diferentes dietas, Descubrió qué les faltaba y dio pruebas incontestables al comandante del campo. Les entregaron unos complejos multivitamínicos y, gracias a ellos, se salvaron muchas vidas.
[39]
En 1979, Cochrane escribió que «sin duda una gran crítica a nuestra profesión es que no hemos organizado un sumario crítico, por especialidad o subespecialidad, adaptado periódicamente, de todas las pruebas controladas aleatorias relevantes». Después de la muerte de Cochrane, tomó el relevo sir Iain Chalmers. A principios de la década de 1990, Chalmers empezó a reunir un conjunto de revisiones sistemáticas, al principio sobre las pruebas aleatorias en el campo de la salud perinatal, el cuidado de las mujeres embarazadas y de sus bebés. Esta iniciativa llegó a convertirse en una red de
investigadores que revisaba, puntuaba, sintetizaba y publicaba las mejores evidencias sobre una gran variedad de disciplinas clínicas.
[40]
Se autodenominan Cochrane Collaboration y gestionan la Biblioteca Cochrane, una base de datos en línea con verificaciones sistemáticas de las investigaciones. La base de datos no está disponible en todos los países, pero sí lo están los sumarios de investigación, que dan una descripción breve sobre el estado del conocimiento basándose en las pruebas aleatorias.
Hojeé los sumarios de algunas de las investigaciones más recientes, bastante al azar, para hacerme una idea. Uno de los sumarios de la primera página afirmaba evaluar «El yoga para tratar la incontinencia urinaria en las mujeres». Bien, yo no practico yoga, no sufro incontinencia urinaria y no soy una mujer, así que mi valoración de este informe no se debería ver afectada por conocimiento alguno sobre estas cuestiones.
Antes de enfrascarme en la información de la Biblioteca Cochrane, tecleé en Google: «¿El yoga puede curar la incontinencia?». WebMD fue uno de los primeros resultados.
[41]
Informaba de que en un nuevo ensayo se habían obtenido resultados espectaculares en mujeres mayores, aunque señalaba que era un estudio a una escala bastante reducida. El
Daily Mail
se había fijado en el mismo estudio e informó de él de manera parecida: eran grandes mejoras, pero era un estudio pequeño.
[42]
El primer resultado de la búsqueda era de una empresa sanitaria privada:
[43]
enfatizaba los resultados espectaculares y no mencionaba que el estudio era pequeño, aunque había un enlace para acceder a la investigación original.
[44]
Ninguna de estas maneras de informar es excelente, pero tampoco son terribles. Para ser sinceros, esperaba algo peor. Y
tampoco es probable que causen daños. Algunos se apuntarán a yoga con falsas esperanzas, o se apuntarán a yoga, mejorarán y lo atribuirán al yoga, cuando, de hecho, habrían mejorado de todas formas. Pero nada de esto es desastroso.
Aun así, los medios no contaron toda la historia. Se limitaron a regurgitar la investigación científica sin indicar si concordaba con cualquier cosa que se hubiera descubierto ya, o si la contradecía.
En cambio, la Biblioteca Cochrane tiene como objetivo proporcionar un sumario accesible de todo lo que sabemos sobre el yoga y la incontinencia, si es que sabemos algo. También aparece en la primera página de los resultados de Google. Cochrane no es un secreto.
El informe de Cochrane, escrito en un lenguaje llano y accesible, es bastante claro. Solo ha habido dos estudios sobre esta cuestión. Ambos pequeños. Las pruebas son débiles, pero, las que hay, sugieren que para la incontinencia urinaria el yoga es mejor que nada, y que la meditación
mindfulness
es mejor que el yoga. Esto es todo: el resultado de una búsqueda rápida en Google y de un minuto leyendo una página escrita en un inglés sencillo. (Hay disponibles traducciones a muchas lenguas.) Estaría bien, por supuesto, que hubiera un montón de pruebas creíbles en las que basarse, pero en este caso no las hay. Y yo prefiero saberlo. Gracias al sumario de Cochrane ya no tenemos que preguntarnos si se han hecho muchas otras pruebas de las que, sencillamente, no sabemos nada.
[45]
Una red similar, la Campbell Collaboration, se propone hacer lo mismo con cuestiones de política social en áreas como la educación y la justicia criminal. A medida que estas iniciativas se desarrollen y obtengan recursos, cada vez será más fácil saber si un estudio es relevante y encaja en un patrón más
amplio de descubrimientos, o si es una ensalada de patata de 55.000 dólares.