Sexta regla
Pregunta qué falta
El poder de no recoger datos es una de las fuentes de poder más importantes y peor comprendidas que tienen los gobiernos […]. Solo por negarse a atesorar conocimientos, quienes toman las decisiones ejercen su poder sobre nosotros.
ANNA POWELL -SMITH , MissingNumbers.org
H ace casi siete décadas, el célebre psicólogo Solomon Asch encargó una tarea simple a 123 sujetos experimentales. Les mostró dos ilustraciones, una con tres líneas bastante diferentes y otra con una «línea de referencia», y luego les pidió que señalaran cuál de las tres líneas tenía la misma longitud que la de referencia. Asch tenía un truco bajo la manga: rodeó a cada participante por gente compinchada que eligieron de forma unánime la línea errónea. Confundidos, los sujetos experimentales a menudo (aunque no siempre) se vieron arrastrados por los errores de quienes los rodeaban.
Los experimentos de Asch son fascinantes, suelo disertar sobre ellos cuando escribo o doy charlas: son un punto de partida inigualable para hablar de la presión que todos sentimos por encajar, y nos ofrecen una visión magnífica de la naturaleza humana.
¿O no? Los experimentos son elegantes y potentes, pero, como muchos psicólogos, Asch trabajaba con el material que tenía a mano: universitarios estadounidenses de la década de 1950. No deberíamos criticarle mucho por ello; Asch cosechó los frutos más fáciles de coger. Le habría costado una barbaridad organizar una muestra representativa de todos los estadounidenses, y más todavía una muestra internacional, y es imposible que pudiera saber qué habría pasado si el estudio no se hubiera llevado a cabo en 1952 sino en 1972. (Fueron otros quienes hicieron los experimentos de seguimiento y detectaron unos niveles de conformidad algo menores, lo cual quizá se debiera al ambiente de rebelión de la época de Vietnam.)
No obstante, es muy tentador pensar que Solomon Asch descubrió una verdad inmutable y universal: considerar los resultados de los experimentos psicológicos en un tipo de persona muy específico, en este caso, los universitarios estadounidenses de la década de 1950, como si fueran experimentos sobre la raza humana en su conjunto. Yo mismo soy culpable de ello en ocasiones, sobre todo cuando estoy bajo presión para dar una charla. Pero solo deberíamos sacar conclusiones sobre la naturaleza humana después de haber estudiado a un amplio abanico de gente. Los psicólogos cada vez son más conscientes del problema que suponen los experimentos que solo estudian sujetos WEIRD (occidentales, educados y de democracias ricas e industrializadas, por sus siglas en inglés).
En 1996, un análisis similar a los de Cochrane estableció que el experimento de Asch había inspirado 133 estudios relacionados. Se llegó a una conclusión que es alentadora a la luz del capítulo precedente: la conformidad es un efecto poderoso y extendido, aunque parece que se ha debilitado con el tiempo. Pero la pregunta obvia que debemos hacernos es la siguiente: ¿el poder de la conformidad varía dependiendo de quién está bajo presión y con quién se quiere concordar?
Por desgracia, los estudios se seguimiento no fueron muy diversos —la mayoría se habían hecho en Estados Unidos y casi todos los sujetos eran estudiantes—, pero algunas excepciones eran ilustrativas. Por ejemplo, un experimento llevado a cabo con los inuit de la isla Baffin en Canadá, en 1967, detectó niveles de conformidad más bajos que entre los temne de Sierra Leona. No soy antropólogo, pero se sabe que los inuit tienen una cultura individualista y relajada, mientras que entre los temne las normas sociales son estrictas, al menos cuando se llevaron a cabo los experimentos. En general —y con algunas excepciones notables como Japón—, la conformidad en los experimentos en la línea de Asch es menor en sociedades que los sociólogos consideran individualistas y más alta en las colectivistas, donde la cohesión social es más importante. [1]
Esto implica que es probable que Asch subestimara el poder de la conformidad al estudiar a sujetos estadounidenses, una sociedad individualista. Pero, por otro lado, las referencias que aparecen en los libros de texto de psicología y en los libros de divulgación de la ciencia a menudo exageran la conformidad que descubrió Asch. (Los sujetos experimentales de Asch se rebelaron a menudo contra la presión de grupo. Casi ninguno de ellos cedió en todo momento; fueron sobre todo ambiguos y reaccionaron de forma distinta en las diferentes rondas del experimento, a veces concordaban con el grupo y otras se quedaban aislados.) Por pura suerte, estos dos sesgos en la comprensión popular de los descubrimientos de Asch se han anulado efectivamente el uno al otro. [2]
¿Hasta qué punto la presión de la conformidad se debía a que el grupo estudiado era una monocultura? ¿En un grupo más heterogéneo habría más espacio para la disensión? Hay algunas señales reveladoras que apuntan a esa posibilidad, así, por ejemplo, los estudios posteriores que descubrieron que la gente es más proclive a concordar con un grupo de amigos que con un grupo de extraños. Y cuando Asch ordenó a sus actores que estuvieran en desacuerdo entre ellos, la presión por la conformidad se evaporó: a los sujetos les satisfacía escoger la opción correcta, aunque fueran los únicos que lo hicieran, siempre y cuando el resto no tuviera una posición común. Todo esto indica que una cura para la conformidad es tomar decisiones con un grupo de personas diverso, gente que pueda poner otras ideas y presunciones sobre la mesa. Pero esta táctica práctica es difícil de poner a prueba porque los experimentos originales y los posteriores se hicieron con grupos homogéneos. Es inevitable pensar que se ha perdido una oportunidad.
Creo que deberíamos fijarnos en que la mayoría de los análisis de los resultados de Asch ignoran por completo la omisión de personas que podían haber actuado de forma diferente y que él podía haber incluido con facilidad. Solomon Asch daba clases en una institución mixta, el Swarthmore College en Pennsylvania. ¿De verdad era necesario que ni uno solo de los participantes, ni entre los actores ni entre los sujetos, fuera mujer?
Resulta que estudios posteriores sugieren que los grupos formados solo por hombres son menos conformistas que los grupos solo de mujeres. Así que, de nuevo, podría haber sido peor: Asch habría encontrado pruebas más contundentes de conformidad si se hubiera fijado en otros sujetos que no fueran jóvenes varones estadounidenses. [3] Aun así, el género importa, y Asch podría haber estudiado sus efectos o, como mínimo, organizar grupos mixtos. Pero está claro que no se le ocurrió, y es desalentador pensar en qué pocos experimentos posteriores prestaron atención a este aspecto.
Si Solomon Asch hubiera sido el único investigador que hubiera actuado así, lo podríamos pasar por alto como una curiosidad histórica. Pero Asch no fue el único, ni mucho menos. Uno de sus estudiantes, Stanley Milgram, llevó a cabo una conocida serie de experimentos con electroshocks en la Universidad de Yale en la década de 1960. He aquí cómo describí estos experimentos en el Financial Times : [4]
[Milgram] seleccionó a miembros del público para participar en un «estudio de la memoria». En el laboratorio, por parejas, echaron a suertes quién sería «profesor» y quién «aprendiz». Cuando ataban al aprendiz a la silla eléctrica, el profesor se iba a una sala adyacente para tomar los mandos de la máquina. Cuando el aprendiz se equivocaba en las respuestas, se pedía al profesor que aumentara poco a poco las descargas eléctricas. Muchos demostraron que no tenían ningún problema en aplicar descargas potencialmente fatales, a pesar de que ellos mismos habían recibido una descarga en la demostración, a pesar de que el aprendiz se hubiera quejado de una dolencia cardíaca, a pesar de los gritos de dolor y de las súplicas para que los soltaran desde la otra habitación, y a pesar de que en los interruptores de la máquina se leía: «Peligro: Descarga grave, XXX». Por descontado, no había descarga alguna: el hombre que gritaba desde la otra habitación solo estaba fingiendo. Pero la investigación ejerce una fascinación horripilante.
Mi artículo debía haber mencionado, aunque solo fuera de pasada, que los cuarenta sujetos experimentales de Milgram eran varones. Pero yo, en aquella época, no prestaba atención a esta cuestión específica, así que —como les pasó a muchos otros antes que yo— no se me ocurrió comprobarlo.
Creo que ahora sí se me ocurriría, puesto que, desde que escribí aquel artículo, he entrevistado a Caroline Criado Perez sobre su libro La mujer invisible . Fue una charla divertida: entró en la BBC con un perrito adorable que se acurrucó en un rincón del estudio y nos dejó conversar sobre el desequilibrio en los datos de género. Leer su libro no fue tan divertido, pues la incompetencia y la injustica que relata es deprimente: desde los fabricantes de los chalecos antibalas de la policía que olvidaron que algunos agentes tienen pechos, hasta los programadores de una «completa» aplicación de salud de Apple que no tenía en cuenta que algunos de sus usuarios menstrúan. [5] El libro sostiene que con demasiada frecuencia los responsables de los productos y las políticas que determinan nuestra vida consideran implícitamente que el cliente —o ciudadano— es, por defecto, hombre. Las mujeres quedan olvidadas. Criado Perez afirma que las estadísticas que recabamos no son una excepción a esta regla: deja muy claro lo fácil que es presumir que los datos reflejan un punto de vista imparcial, cuando, de hecho, están llenos de sesgos profundos y sutiles.
Consideremos la infrarrepresentación histórica de las mujeres en los ensayos clínicos. Un hito pésimo fue la talidomida, que se administró a las embarazadas para paliar las náuseas matinales y luego se comprobó que podía causar discapacidades severas o la muerte al feto. Después de este desastre, las mujeres en edad de procrear quedaron excluidas de forma regular de los ensayos, como medida de precaución. Pero esta precaución solo tiene sentido si damos por hecho que conoceremos mejor lo que estamos investigando si probamos los fármacos solo con hombres, lo cual es dar mucho por hecho. [6]
La situación ha mejorado, pero muchos estudios siguen sin separar los datos para poder analizar si hay un efecto diferente en hombres y mujeres. El sildenafilo, por ejemplo, se creó en principio como un tratamiento contra la angina de pecho. El ensayo clínico —en el que solo participaron hombres— reveló un efecto secundario inesperado: unas erecciones impresionantes. Ahora, más famoso con el nombre de Viagra, ha sido un éxito en el mercado como tratamiento para la disfunción eréctil. Pero el sildenafilo podría tener otro beneficio inesperado: podría ser un tratamiento efectivo para el dolor menstrual. No lo sabemos con seguridad, solo se ha hecho un pequeño pero sugerente experimento. [7] Si el ensayo para la angina de pecho hubiera tenido una representación igualitaria entre hombres y mujeres, el potencial tratamiento para el dolor menstrual habría sido tan evidente como el efecto en las erecciones.
Sorprende que este tipo de efectos diferentes según el sexo son muy habituales. Un estudio de un fármaco en roedores macho y hembra descubrió que el efecto dependía del sexo más de la mitad de las veces. Durante largo tiempo, los investigadores estuvieron desconcertados porque en algunos casos las células madre de los músculos se regeneraban y en otros no. Parecía algo del todo arbitrario, hasta que a alguien se le ocurrió comprobar si las células madre provenían de machos o de hembras. Misterio resuelto: resultó que las células madre de las hembras se regeneraban y las de los machos no.
El punto ciego del género todavía debe iluminarse. Unas semanas después de la irrupción de la epidemia del coronavirus, los investigadores empezaron a darse cuenta de que los hombres eran más susceptibles que las mujeres tanto a la infección como a la muerte. ¿Se debía eso a su comportamiento, a limpiarse bien las manos, a la prevalencia del tabaquismo, o quizá a una diferencia en la biología de los sistemas inmunológicos de los hombres y las mujeres? No era fácil saberlo, sobre todo porque los veinticinco países con más infecciones —entre ellos, el Reino Unido y Estados Unidos— no separaban los datos por género. [8]
Otro problema es cuando se incluye a las mujeres al recabar los datos pero las preguntas que les hacen no encajan con las respuestas predeterminadas para hombres que ha redactado el investigador. Hace unos veinticinco años, en Uganda, la fuerza laboral activa aumentó, de repente, en un 10 por ciento, de 6,5 a 7,2 millones de personas. ¿Qué había pasado? Pues que los estudios sobre la fuerza laboral empezaron a hacer mejores preguntas. [9]
Antes los encuestados debían enumerar sus principales actividades o trabajos, y muchas mujeres que tenían un trabajo parcial, vendían productos en el mercado o trabajaban en la granja familiar, escribían: «ama de casa». La nueva encuesta preguntaba también sobre actividades secundarias, y de golpe las mujeres empezaron a mencionar las muchas horas de trabajo pagado que hacían aparte. La fuerza laboral de Uganda aumentó en 700.000 personas, la mayoría de ellas mujeres. El problema no era que la primera encuesta ignorara a las mujeres, sino que hacía preguntas que presuponían la anticuada división del trabajo del hogar, en la que el marido trabajaba a tiempo completo y cobraba, y la mujer trabajaba en el hogar y no cobraba.
Un desajuste de los datos todavía más sutil proviene del hecho de que los gobiernos suelen calcular la renta de los hogares, no de los individuos. No es una decisión descabellada: en un mundo en que muchas familias aúnan los recursos para pagar el alquiler, la comida y, a veces, todos los gastos, el «hogar» es una unidad lógica de análisis. Conozco a un montón de gente, hombres y mujeres, que pasan mucho tiempo, o casi todo el tiempo, trabajando en casa sin cobrar, cuidando de los hijos, mientras su pareja cobra un salario considerable. Sería una torpeza concluir que, dado que un cónyuge cobra poco o nada, viven en la pobreza.
Y aunque muchos hogares aúnen sus recursos, no siempre es así: el dinero puede ser un arma en el hogar, y unas ganancias desiguales pueden propiciar relaciones abusivas. Recabar solo datos de la renta de los hogares hace que estos abusos sean estadísticamente invisibles, irrelevantes por definición. No podemos presumir que todo lo que no medimos no existe.
Como con los experimentos de Asch, resulta que no es necesario que hagamos especulaciones sobre si es importante quién controla la cartera en el hogar. Tenemos pruebas sólidas de que lo es. La economista Shelly Lundberg y sus colegas estudiaron qué ocurrió en el Reino Unido cuando, en 1977, la prestación por tener hijos, un subsidio regular para las familias, dejó de ser una desgravación (que solía caer en manos de los padres) y pasó a ser un pago en efectivo a la madre. Este cambio conllevó un aumento significativo en el gasto en ropa de niños y de mujeres en comparación con el gasto en ropa de hombre. [10]
Cuando escribí sobre la investigación de Lundberg en el Financial Times , un lector indignado me escribió preguntándome cómo sabía que era mejor gastar dinero en ropa de niños y de mujer que en ropa de hombre. Esa persona, un caso inusual entre los lectores del Financial Times , no había comprendido el problema: no se trata de que un patrón de gasto sea mejor, sino que el patrón de gasto era diferente. Los ingresos del hogar no cambiaron, pero cuando el dinero lo recibió una persona distinta en el hogar, se gastó en otras cosas. Eso nos indica que medir los ingresos solo a nivel del hogar nos impide conocer información importante. El nuevo sistema de prestaciones del Reino Unido, Universal Credit, se paga a un solo «progenitor del hogar». Es muy posible que esta decisión, curiosamente anticuada, favorezca a los hombres, pero con los datos que tenemos será difícil verificarlo.
Estaría bien imaginar que las estadísticas de alta calidad aparecen de repente en una hoja de cálculo gracias a la divina providencia de los cielos numéricos. Pero cualquier agrupación de datos comienza con alguien que decide recabar cifras. Cuáles se recaban y cuáles no, qué se mide y qué no, y a quién se incluye y a quién no, es el resultado de presunciones, preconcepciones y despistes, todo ello muy humano.
Las Naciones Unidas, por ejemplo, han fijado una serie de ambiciosos «Objetivos de Desarrollo Sostenible» para 2030. Pero los expertos en desarrollo han empezado a llamar la atención sobre un problema: con frecuencia no tenemos los datos para saber si esos objetivos se han cumplido. ¿Estamos logrando que se reduzca la violencia doméstica que padecen las mujeres? Si no hay muchos países que decidan recabar buenos datos sobre este problema para hacer una comparación histórica, será muy difícil saberlo. [11]
A veces, las decisiones sobre qué datos recopilar son rocambolescas. Will Moy, director de la organización de verificación Full Fact, señala que en Inglaterra las autoridades saben más sobre los golfistas que sobre la gente que es víctima de agresión, robo o violación. [12] Esto no se debe a que la persona del gobierno encargada del presupuesto para las encuestas decidiera que era más importante comprender el golf que el crimen. El problema reside en que las encuestas suelen estar entremezcladas con otros proyectos. En medio del entusiasmo a raíz de la elección de Londres como sede de los Juegos Olímpicos de 2012, el gobierno lanzó la Encuesta de Vidas Activas, en la que participaron 200.000 personas y que cubrió una extensión geográfica que nos permite saber qué deportes son más populares en cada área local. Por eso sabemos tanto de los golfistas.
Eso no es malo, es magnífico tener una imagen tan clara de cómo la población se mantiene en forma. Pero ¿no es una señal de que se podría reforzar la Encuesta del Crimen en Inglaterra y Gales, en la que solo participan 35.000 hogares? Es un estudio lo bastante amplio para comprender la tendencia nacional en crímenes comunes, pero, si fuera tan extenso como la Encuesta de Vidas Activas, podríamos comprender las tendencias de los crímenes más inusuales, de los pequeños grupos demográficos o de cada ciudad. En las mismas condiciones, un estudio amplio nos proporciona estimaciones más precisas, sobre todo cuando queremos detectar algo inusual.
Pero más grande no siempre es mejor. Es posible encuestar a muchísima gente y, a la vez, dejar fuera a las personas suficientes para llevarnos una impresión desastrosamente parcial de lo que está ocurriendo.
En 1936, el gobernador de Kansas, Alfred Landon, fue el candidato republicano a la presidencia contra el demócrata Franklin Delano Roosevelt, que ostentaba el cargo. Una revista respetada, Literary Digest , se propuso predecir el resultado. Llevó a cabo una encuesta de opinión postal ambiciosísima y llegó a diez millones de personas, una cuarta parte del electorado. El diluvio de respuestas por correo es difícil de imaginar, pero el Digest parecía encantado con la escala de la tarea. A finales de agosto informó: «La próxima semana, las primeras respuestas de estos diez millones iniciarán la marea de datos que se comprobarán, se verificarán, se cotejarán y se contabilizarán». [13]
Después de analizar los 2,4 millones de respuestas que llegaron durante dos meses, Literary Digest anunció las conclusiones: Landon iba a ganar con un convincente 55 por ciento de los votos frente al 41 por ciento de su rival; quedaban unos pocos votos más que favorecían a un tercer candidato.
En las elecciones, los resultados fueron muy diferentes. Roosevelt aplastó a Landon: 61 por ciento contra 37 por ciento. Para colmo de males para el Literary Digest , una encuesta mucho más reducida que llevó a cabo el pionero en sondeos de opinión George Gallup se acercó mucho más al resultado final y predijo una victoria holgada de Roosevelt.
George Gallup entendió algo que el Literary Digest no había entendido: respecto a los datos, el tamaño no lo es todo. Las encuestas de opinión como las de Gallup se basan en muestras de la población que vota. Esto significa que los encuestadores de opinión deben enfrentarse a dos problemas: el error de la muestra y el sesgo de la muestra.
El error de la muestra consiste en el riesgo de que, por casualidad, una muestra de opiniones escogida aleatoriamente no refleje la opinión real de la población. El «margen de error» de las encuestas de opinión es el parámetro de este riesgo; cuanto más amplia sea la muestra, menor será el margen de error. Un millar de entrevistas es una muestra lo bastante extensa para analizar muchas cuestiones, y cuando las elecciones de 1936 Gallup completó tres mil entrevistas.
Pero, si tres mil entrevistas era una buena muestra, ¿por qué 2,4 millones no fueron mucho mejor? La respuesta es que el error de muestra tiene un amigo mucho más peligroso: el sesgo de muestra. El error de muestra se da cuando la muestra escogida aleatoriamente no refleja la tendencia de la población; el sesgo de muestra es cuando la muestra no ha sido en absoluto aleatoria. George Gallup se devanó los sesos para conseguir una muestra imparcial porque sabía que era mucho más importante que una muestra enorme.
Literary Digest , al buscar la mayor cantidad de datos posible, se olvidó del sesgo de muestra. Envió formularios a una lista de personas que extrajeron del registro de automóviles y del directorio telefónico. Una muestra que, al menos en 1936, era muy muy adinerada. Quienes tenían coche o teléfono eran mucho más ricos que el resto. Algo que agravó el problema fue que los votantes de Landon eran mucho más proclives a responder que los de Roosevelt. La combinación de estos dos sesgos fue suficiente para mandar al traste la encuesta de Literary Digest . Por cada persona entrevistada por los encuestadores de George Gallup, Literary Digest recibió ochocientas respuestas. La única recompensa que recibió por todos sus esfuerzos fue una estimación muy precisa de una pregunta equivocada. Al no prestar suficiente atención a las personas que faltaban (es decir, todo el grupo poblacional que pasaron por alto) y a las respuestas que faltaban, Literary Digest protagonizó uno de los desastres más sonados de la historia estadística.
Todos los encuestadores saben que sus encuestas son vulnerables al efecto Literary Digest , y los más serios intentan —como hizo George Gallup— abarcar una muestra representativa de la población. Es algo que nunca ha sido fácil, y por lo visto cada vez es más difícil: cada vez menos personas se molestan en contestar las encuestas, lo que pone sobre la mesa la pregunta obvia de si los que sí responden son realmente representativos de los demás. En la actualidad la gente está menos dispuesta a responder a las preguntas de un teleoperador, pero esa no es la única explicación. Por ejemplo, el primer Estudio Británico sobre las Elecciones, una encuesta presencial en la que los encuestadores llamaban a las puertas de los ciudadanos, tuvo una ratio de respuesta de casi el 80 por ciento en 1963. En la versión de 2015, también presencial, la respuesta apenas sobrepasaba el 55 por ciento; en casi la mitad de los hogares a los que acudieron, o nadie abrió la puerta, o alguien la abrió pero se negó a responder a las preguntas del encuestador. [14]
Los encuestadores tratan de corregir estas lagunas, pero no existe un método infalible. Las respuestas «perdidas» son ejemplos de lo que el estadístico David Hand llama «datos oscuros»: sabemos que hay personas ahí fuera y sabemos que tienen opiniones, pero solo nos queda conjeturar qué opiniones son esas. Podemos ignorar los datos oscuros, como Asch y Milgram ignoraron la cuestión de cómo las mujeres reaccionarían en sus experimentos, o podemos hacer lo posible por arrojar más luz en lo que no se ve. En todo caso, nunca resolveremos completamente el problema.
En las elecciones parlamentarias de 2015 en el Reino Unido, las encuestas de opinión sugirieron que David Cameron, por entonces primer ministro, no conseguiría los votos suficientes para mantenerse en el poder. Las encuestas se equivocaron: el Partido Conservador de Cameron ganó escaños en el Parlamento y logró una victoria pírrica. No estaba muy claro qué había fallado, pero muchas empresas encargadas de las encuestas adujeron que hubo un cambio de última hora en favor de los conservadores. Si hubieran hecho unos pocos sondeos exprés a última hora, quizá habrían detectado ese cambio.
Pero el diagnóstico de lo que había ido mal era erróneo. Las investigaciones posteriores revelaron que el verdadero problema habían sido los datos oscuros. Poco después de las elecciones, los investigadores escogieron una muestra aleatoria de hogares y llamaron a sus puertas para preguntarles si habían votado y, en caso afirmativo, qué habían votado. Obtuvieron la misma respuesta que en las encuestas anteriores: no había suficientes votantes para que Cameron se mantuviera en el cargo. Pero entonces los encuestadores volvieron a los hogares que no les habían abierto la puerta o que se habían negado a responder. En este segundo intento aparecieron más votantes conservadores. Los encuestadores siguieron intentándolo una y otra vez —en algunos casos hasta seis veces—, y al final obtuvieron respuesta de casi todas las personas a las que se habían propuesto encuestar desde el inicio. Conclusión: la encuesta retrospectiva por fin encajaba con el resultado de las elecciones.
Si el problema hubiera sido un cambio de última hora, la solución habría consistido en unos cuantos sondeos de última hora. Pero, puesto que el problema consistía en que era más difícil contactar con los votantes conservadores, la verdadera solución era un método más lento y exhaustivo de realizar sondeos de opinión. [15]
Con esos mismos problemas se toparon los encuestadores estadounidenses en las elecciones de 2016, cuando las encuestas parecían otorgarle la victoria a Hillary Clinton, por encima de Donald Trump, en los estados bisagra que decidirían la contienda. Hubo un cambio de última hora en favor de Donald Trump, y también el mismo tipo de sesgo de no respuestas que había condenado a las encuestas británicas de 2015: resultó que a los encuestadores les fue más fácil hablar con votantes de Clinton que de Trump. El error de la encuesta no fue, objetivamente, muy grande. Quizá a la gente se le quedó grabado porque Trump era un candidato de lo más inusual. Sin embargo, se mantiene el hecho de que las encuestas se equivocaron, en parte, porque, cuando los encuestadores buscaron un grupo representativo de votantes, muchos seguidores de Trump habían desaparecido. [16]
Una solución ambiciosa para el sesgo de muestra es dejar de intentar obtener una porción representativa de la población y, por el contrario, hablar con todo el mundo. Eso es lo que trata de hacer el censo. No obstante, incluso los que trabajan con el censo no pueden suponer que han contado a todos. En el censo estadounidense de 2010 solo recibieron respuesta del 74 por ciento de los hogares. Eso quiere decir que muchas personas se quedan fueran o deciden quedarse fuera.
En el censo británico de 2011, la ratio de respuesta fue del 95 por ciento, unos 25 millones de hogares. Eso está mucho mejor; de hecho, a primera vista parece casi perfecto. Con la respuesta de 25 millones de hogares, el error de muestra aleatorio no es un problema, será un margen mínimo. Pero, incluso con solo un 5 por ciento de personas que no responden, el sesgo de muestra sigue siendo preocupante. Quienes trabajan con el censo saben que hay ciertos tipos de personas que es muy probable que no respondan cuando el formulario oficial del censo caiga sobre su felpudo: los que viven en una casa compartida, como los estudiantes; los hombres en la veintena, y la gente que no habla un buen inglés. Y el 5 por ciento que no responde puede tener una opinión muy distinta del 95 por ciento que sí. Este hecho por sí solo basta para que haya parcialidad en los datos. [17]
Hacer el censo es una de las formas más antiguas de recabar estadísticas. Mucho más nuevo, pero con una aspiración similar a llegar a todo el mundo, son los macrodatos (big data ). El profesor Viktor Mayer-Schönberger, del Instituto de Internet de Oxford y coautor del libro Aprender con Big Data , me dijo que su definición favorita de una gran agrupación de datos es aquella en que N = Todo. Es decir, que ya no es necesaria una muestra porque se tiene a toda la población. [18]
Hay una fuente de macrodatos tan mundana que es fácil pasarla por alto. Piensa en los datos que creas cuando ves una película. En 1980 tu única opción habría sido ir al cine, donde habrías pagado en efectivo. Los únicos datos que se creaban eran los recibos de la taquilla. En 1990 podrías haber ido al videoclub local; es posible que tuviera un ordenador con tu historial, o quizá todo se hiciera con papel y lápiz. Si se hacía con un ordenador, lo más seguro es que no estuviera conectado con ninguna otra base de datos más amplia. Pero, en el siglo XXI , cuando abres una cuenta en Netflix o en Amazon, tus datos se introducen en un mundo vasto e interconectado: fácilmente analizados, comparados o compartidos con un mayorista de datos, si lo permiten las condiciones pactadas.
Lo mismo ocurre cuando nos hacemos el carnet de la biblioteca, pagamos el impuesto de la renta, firmamos el contrato del móvil o solicitamos un pasaporte. Antaño, estos datos habrían existido como pequeñas hojas de papel en un catálogo alfabético gigante. No estaban pensados para un análisis estadístico, como hubiera sido el caso de un censo o una encuesta. Eran elementos administrativos: se recababan datos porque se necesitaban para hacer ciertas cosas. Con el tiempo, los datos administrativos se han digitalizado y los algoritmos que los analizan se han mejorado, de modo que es más fácil utilizarlos como información para el análisis estadístico, como complemento o, incluso, como sustituto de los datos de las encuestas.
Pero, con frecuencia, N = Todo es más una presunción tranquilizadora que un hecho. Como hemos visto, los datos administrativos a menudo incluyen información sobre quién rellena los formularios y paga las facturas del hogar, de modo que quien evita la administración es más difícil de rastrear. Y es demasiado fácil olvidar que N = Todo no es lo mismo que N = Todo aquel que se haya suscrito a un servicio particular. Netflix, por ejemplo, posee copiosos datos de todos sus clientes, pero muchos menos de quienes no son sus clientes, y sería imprudente para Netflix generalizar de un grupo a otro.
Más incluso que los datos administrativos, la savia de los macrodatos son los found data , el tipo de datos que vamos dejando sin darnos cuenta mientras llevamos encima el móvil, buscamos en Google, pagamos en línea, tuiteamos lo que pensamos, subimos fotos a Facebook o aumentamos la temperatura de nuestro termostato inteligente. No se trata solo del nombre y los datos de la tarjeta que damos a Netflix: es todo lo que hemos visto en la plataforma, cuándo lo hemos visto —o lo hemos dejado de ver— y otros muchos datos relacionados.
Cuando se recopilan este tipo de datos del ciberespacio, se pueden tratar y analizar de muchas maneras complejas. Si queremos saber cómo va la opinión pública, por ejemplo, es posible que prefiramos insertar un algoritmo de análisis de los sentimientos en Twitter que gastarnos dinero encargando un sondeo de opinión. Twitter puede proporcionar todos los mensajes para que se analicen, aunque, en la práctica, la mayoría de los investigadores utilizan un subgrupo de todos los datos. Pero, incluso si analizáramos todos los mensajes de Twitter (N = Todo), solo sabríamos lo que piensan los usuarios de Twitter, no lo que piensa todo el mundo. Y los usuarios de Twitter no puede decirse que sean representativos de la variedad del mundo. En Estados Unidos, por ejemplo, es más probable que sean jóvenes, urbanitas, con educación universitaria y negros. Por otro lado, es más habitual que las mujeres utilicen Facebook e Instagram, en detrimento de LinkedIn. Los latinos usan más Facebook que los anglosajones, mientras que los negros usan más LinkedIn, Twitter e Instagram que los blancos. Ninguno de estos hechos es obvio. [19]
Kate Crawford, investigadora de Microsoft, ha reunido varios ejemplos en los que la presunción N = Todo deja a mucha gente fuera. Cuando el huracán Sandy golpeó la zona de Nueva York en 2012, unos investigadores publicaron un análisis de datos a partir de Twitter y de un motor de búsqueda basado en la ubicación, FourSquare, que mostraba que se podía registrar un aumento en las compras de alimentos el día antes y un auge de la asistencia a los bares y los locales nocturnos el día después. Está bien, en cierta medida, pero había una cantidad desproporcionada de tuits de Manhattan, cuando en otras zonas, como en Coney Island, el impacto del huracán fue mucho mayor. De hecho, Coney Island se vio tan afectada que el sistema eléctrico se desmoronó —por eso nadie tuiteaba—, mientras que Manhattan, densa y próspera, estaba inusualmente saturada de smartphones, al menos según los estándares de 2012, cuando no eran tan habituales como hoy en día. Para que este tipo de análisis de macrodatos sea útil, se necesita un esfuerzo considerable para desentrañar los tuits de la realidad. [20]
Otro ejemplo: en 2012, Boston lanzó una aplicación para móviles, StreetBump, que empleaba un acelerómetro para detectar baches. La idea consistía en que los ciudadanos de Boston se descargaran la aplicación y, a medida que transitaran por la ciudad, los teléfonos notificarían al ayuntamiento qué calzadas debían reparar, de modo que los técnicos ya no deberían patrullar por la urbe para encontrar los baches. Es una idea elegante, y detectó con éxito algunos baches en la calzada. Pero lo que generó realmente StreetBump, con su propio funcionamiento, fue un mapa de baches que enfatizaba esas zonas prósperas y jóvenes donde la gente tenía un iPhone y había oído hablar de la aplicación. StreetBump proporciona un N = Todo en el sentido de que permite registrar cada bache de cada móvil que posee la aplicación. No es lo mismo que registrar todos los baches. Después de eso, el proyecto se guardó en un cajón.
Los algoritmos que analizan macrodatos se crean con datos que pueden tener sesgos sutiles. Por ejemplo, los algoritmos que se configuran, en gran medida, con rostros pálidos y voces masculinas podrían confundirse cuando después tuvieran que interpretar el habla de una mujer o un cutis más oscuro. Se cree que esto explica por qué el software de fotos de Google confundía fotos de personas con la piel oscura con fotos de gorilas; por qué a las cámaras web de Hewlett Packard les costaba más activarse cuando tenían delante personas con tonos de piel más oscuro, y las cámaras de Nikon, programadas para hacer otra foto cuando alguien parpadea, repiten las fotos de personas de China, Japón o Corea porque confunden los ojos asiáticos con un parpadeo. Las nuevas aplicaciones que se han lanzado en la primavera de 2020 aseguran que oyen la tos y detectan si tenemos Covid-19 o alguna otra enfermedad. ¿Lograrán superar estos obstáculos? [21]
Una cosa es segura: si a los algoritmos se les muestra una visión sesgada del mundo, llegarán a una conclusión sesgada. [22]
Ahí afuera hay personas descaradamente racistas y sexistas —mira alrededor—, pero, en general, lo que contamos y dejamos de contar suele ser el resultado de una decisión que no sopesamos convenientemente, de sesgos sutiles y presunciones ocultas que, sin darnos cuenta, hacen que nos salgamos del camino.
A menos que nosotros mismos recopilemos los datos, hay un límite en lo que podemos hacer para combatir el problema de los datos que faltan. Pero podemos y debemos acordarnos de preguntar quién o qué falta en los datos que nos dan. Algunas cifras que pasamos por alto son evidentes. Por ejemplo, es muy difícil recabar buenos datos sobre crímenes como el tráfico sexual o el consumo de drogas duras. Otras omisiones solo se revelan cuando analizamos la afirmación en cuestión. Tal vez los investigadores no han dicho explícitamente que en el experimento solo participaron hombres. Este tipo de información acostumbra a estar enterrada en el apéndice estadístico, y a veces ni siquiera se menciona. Pero, con frecuencia, un análisis rápido pondrá de manifiesto que el estudio tiene un punto ciego. Si un experimento solo ha incluido a hombres, no podemos presumir que habría llegado a las mismas conclusiones si hubiera estudiado también a mujeres. Si una estadística del gobierno mide la renta de un hogar, deberemos reconocer que apenas sabemos nada de cómo se comparte esta renta en el hogar.
Las grandes bases de datos pueden parecernos completas y pueden ser muy útiles, pero N = Todo suele ser una ilusión seductora: es fácil presuponer sin garantías que tenemos todo lo importante. Siempre debemos preguntar quién y qué falta. Y esta es solo una de las razones para interpretar los macrodatos con precaución. Los macrodatos representan un cambio enorme y desconocido en la obtención de estadísticas, y es aquí adonde nuestro viaje para comprender el mundo nos lleva a continuación.