Séptima regla
Exige transparencia cuando el ordenador dice «no»
Sé que he tomado algunas decisiones pésimas últimamente, pero le puedo garantizar que mi funcionamiento volverá a ser normal. Sigo teniendo el mayor entusiasmo y tengo una gran confianza en la misión. Y quiero ayudarte, Dave.
HAL 9000 (2001: Una odisea del espacio ) (27)
E n 2009, un equipo de investigadores de Google anunció un notable logro en una de las revistas científicas más importantes del mundo, Nature . [1] Sin necesidad de tener los resultados de ni siquiera una sola consulta médica, eran capaces de rastrear la propagación de la gripe en Estados Unidos. Es más, podían hacerlo más rápido que los Centros de Control y Prevención de Enfermedades (CDC, por sus siglas en inglés), que se basaban en los informes de las consultas médicas. El algoritmo de Google había buscado patrones en los datos de CDC entre 2003 y 2008, y había identificado una correlación entre los casos de gripe y lo que la población de la zona buscaba por internet en aquel momento. Al descubrir el patrón, el algoritmo podía utilizar las búsquedas actuales para estimar los casos de gripe una semana antes o más de que los CDC publicaran su versión oficial. [2]
Google Flu Trends no solo era rápido, preciso y barato, sino que carecía de teoría alguna. Los ingenieros de Google no se molestaron en desarrollar hipótesis sobre qué términos de búsqueda estaban correlacionados con la propagación de la enfermedad. Cabe presumir que búsquedas como «síntomas de la gripe» o «farmacias cercanas» predicen mejor los casos de gripe que búsquedas como «Beyoncé», pero el equipo de Google no se fijó en esto. Se limitó a insertar los 50 millones de términos de búsquedas y dejó que los algoritmos hicieran su trabajo.
El éxito de Google Flu Trends se convirtió en un emblema de las nuevas modas empresariales, tecnológicas y científicas: «macrodatos» y «algoritmos». «Macrodatos» puede significar casi cualquier cosa, pero centrémonos en los found data que hemos estudiado en el capítulo anterior —la huella digital de las búsquedas, los pagos con tarjeta de crédito y las conexiones de los móviles a las antenas transmisoras—, y añadamos también los datos administrativos que se generan cuando las organizaciones se organizan.
Un algoritmo, en cambio, es una receta (28) paso a paso para realizar una serie de acciones, y en la mayoría de los casos «algoritmo» significa simplemente «programa informático». Pero en los últimos años la palabra ha llegado a relacionarse con algo bastante específico: los algoritmos se han convertido en instrumentos para descubrir patrones en grandes bases de datos. Google Flu Trends se basaba en algoritmos que reconocían patrones y que analizaban estos 50 millones de términos de búsquedas para detectar los que parecían coincidir con los informes de más casos de gripe de los CDC.
Son este tipo de datos y este tipo de algoritmos los que me gustaría analizar en este capítulo. Los conjuntos de datos found data pueden ser ingentes. Con frecuencia su recopilación resulta más bien barata, se actualizan en tiempo real y están desorganizados: es un collage de datos que se han extraído con diferentes propósitos. A medida que la comunicación, el ocio y el comercio entran en internet, e internet entra en los móviles, los coches e incluso en las gafas, la vida puede registrarse y cuantificarse de una manera que una década atrás habría sido difícil de imaginar. Las estanterías sobre el negocio empresarial y las páginas de las revistas están llenas de libros y artículos que destacan las oportunidades que proporcionan estos datos.
Junto con el mensaje de «entérate y hazte rico», los defensores de los macrodatos han hecho tres afirmaciones entusiastas, todas ellas basadas en el éxito de Google Flu Trends. Primera: el análisis de aquellos datos generó unos resultados increíblemente precisos. Segunda: es posible recabar todos y cada uno de los datos —la afirmación de N = Todo que hemos visto en el capítulo anterior—, con lo que las viejas técnicas de muestreo estadístico son obsoletas (es decir, que Flu Trends capturó todas y cada una de las búsquedas). Y tercera y última: los modelos científicos también son obsoletos, no es necesario desarrollar y poner a prueba teorías sobre por qué las búsquedas de «síntomas de la gripe» y «Beyoncé» pueden estar o no correlacionadas con la propagación de la gripe porque, citando un provocativo artículo de Wired en 2008, «con suficientes datos, las cifras hablan por sí mismas».
Todo muy revolucionario. Sin embargo, cuatro años después de que se publicara el artículo original en Nature , Nature News nos daba una triste noticia: el último brote de gripe se había cobrado una víctima inesperada: Google Flu Trends. Después de detectar de forma segura y precisa los brotes de gripe durante varios inviernos, el modelo sin teoría y abarrotado de datos perdió la pista de la gripe. Predijo un brote grave, pero cuando llegaron los datos lentos y regulares de los CDC mostraron que las estimaciones de Google eran exageradas: en cierto momento superaban por más del doble las cifras reales. [3] El proyecto de Google Flu Trends se dejó de desarrollar poco después. [4]
¿Qué había ido mal? Parte del problema residía en la tercera afirmación: Google no sabía —y no podía saber— qué relacionaba los términos de búsqueda con la propagación de la gripe. Los ingenieros de Google no intentaban averiguar qué causaba qué. Se limitaban a reconocer patrones estadísticos en los datos, que es lo que hacían los algoritmos. De hecho, el equipo de Google había echado una ojeada a los patrones y había descubierto algunas correlaciones claramente espurias; el equipo podía indicar al algoritmo que las obviase. Por ejemplo, resultó que los casos de gripe estaban correlacionados con búsquedas de «baloncesto en el instituto». La razón no es un misterio: tanto la gripe como el baloncesto en el instituto suelen empezar a mediados de noviembre. Pero eso significaba que Flu Trends era en parte un detector de la gripe y en parte un detector del invierno. [5] Esto fue un problema cuando hubo un brote de gripe veraniega en 2009: Google Flu Trends, en busca de señales del invierno cuando no había ninguna, pasó por alto el rebrote fuera de estación y los casos reales multiplicaron por cuatro sus estimaciones. [6]
El problema del «detector de invierno» es habitual en los análisis de macrodatos. Un ejemplo literal, del informático Sameer Singh, es el algoritmo para reconocer patrones al que se le mostraron fotos de lobos salvajes y fotos de perros husky. Pareció que al algoritmo se le daba muy bien distinguir estos dos cánidos bastante similares; pero en realidad lo único que hacía era etiquetar como lobos a los que aparecían en cualquier imagen con nieve. Un ejemplo con implicaciones más serias fue descrito por Janelle Shane en su libro You Look Like a Thing and I Love You : un algoritmo al que le mostraron imágenes de piel sana y cáncer de piel. El algoritmo reconoció el patrón: si en la fotografía había una regla, se trataba de cáncer. [7] Si no sabemos por qué un algoritmo hace lo que hace, confiamos nuestra vida a un detector de reglas.
Saber qué causa qué es complejo (imposible, según algunos). Saber qué está correlacionado con qué es mucho más barato y fácil. Y algunos entusiastas de los macrodatos —como Chris Anderson, autor de aquel provocador artículo en la revista Wired — han argumentado que no tiene sentido indagar más allá de las correlaciones. «Primero, analicemos los datos desde el punto de vista matemático, y luego fijemos el contexto», escribió; las cifras hablan por sí mismas. O, parafraseando el argumento de Chris con un poco de acritud: «Si las búsquedas de baloncesto en el instituto siempre aparecen al mismo tiempo que los casos de gripe, no importa saber por qué».
Pero sí importa, porque un análisis de correlaciones sin teoría alguna es inevitablemente frágil. Si no sabemos qué se esconde detrás de una correlación, no tendremos ni idea de cómo se puede desbaratar esa correlación.
Después del problema de la gripe veraniega de 2009, la precisión de Flu Trends se vino abajo del todo a finales de 2012. No está claro por qué. Una teoría fue que en diciembre de 2012 hubo un montón de noticias escalofriantes sobre la gripe, y es posible que provocaran búsquedas en internet por parte de personas sanas. Otra posible explicación es un cambio en el mismo algoritmo de búsqueda de Google: automáticamente, empezó a sugerir diagnósticos cuando se tecleaban síntomas médicos, y eso podría haber cambiado lo que finalmente se escribía en Google, de forma que confundió al modelo de Flu Trends. Cabe suponer que Google, si se lo hubieran propuesto, hubiese podido resolver los problemas del algoritmo y encontrar la forma de que funcionara, pero decidieron que la molestia, el gasto y el riesgo de fracaso no merecían la pena.
O quizá no. La verdad es que los investigadores externos se han visto obligados a conjeturar qué fue mal, porque no cuentan con la información necesaria para saberlo con seguridad. Google comparte algunos datos con los investigadores, y, en efecto, algunos de estos datos los puede consultar cualquiera. Pero no va a entregar todos los datos a ti, a mí o a quien sea.
En mi biblioteca tengo, en un lugar de honor, dos libros que cuentan la historia de cómo ha cambiado la perspectiva de los macrodatos en solo unos pocos años.
Uno de ellos, publicado en 2013, es Big data , de Kenn Cukier y Viktor Mayer-Schönberger. Relata varios ejemplos de cómo los sensores baratos, las grandes bases de datos y los algoritmos que reconocen patrones están transformando nuestra vida, nuestro trabajo y nuestro pensamiento. ¿El ejemplo paradigmático que escogen los autores para empezar el libro? Google Flu Trends. El fracaso de este proyecto fue evidente solo después de que el libro fuera a la imprenta.
Tres años después, en 2016, apareció Armas de destrucción matemática , de Cathy O’Neil, que —como supondrás— adopta una visión bastante más pesimista. El subtítulo de O’Neil nos advierte de que los macrodatos «aumentan la desigualdad y amenazan a las democracias».
La diferencia, en parte, es de perspectiva: Cukier y Mayer-Schönberger suelen adoptar el punto de vista de alguien que hace algo con un algoritmo que se basa en datos; O’Neil ve la situación desde el punto de vista de quien recibe la acción de un algoritmo basado en datos. El martillo es una herramienta útil para el carpintero; el clavo tiene una opinión muy distinta.
Pero el cambio de tono también refleja el cambio general que hubo entre 2013 y 2016. En 2013, las relativamente pocas personas que se fijaban en los macrodatos se imaginaban a menudo a sí mismas como carpinteros; en 2016, muchos de nosotros nos dimos cuenta de que somos clavos. Los macrodatos pasaron de ser algo transformador a ser algo siniestro. La expectativa fue sustituida por el miedo y por titulares inquietantes. (Tal vez mi favorito fue un artículo de la CNN: «Las matemáticas son racistas».) La crisis llegó a su punto álgido cuando una empresa de consultoría política, Cambridge Analytica, aprovechó la política laxa de Facebook con los datos para extraer información de unos 50 millones de personas, sin que estas lo supieran ni dieran su consentimiento expreso, y les mostró anuncios personalizados. Los comentaristas, horrorizados, supusieron que estos anuncios habían sido tan efectivos que habían dado la victoria a Donald Trump, aunque un análisis posterior y más ponderado concluyó que la capacidad de Cambridge Analytica estaba lejos de controlar las mentes. [8]
Todos nosotros dejamos un rastro ingente de datos, y estos datos se agrupan y se convierten en océanos de información. Los algoritmos y las bases de datos se utilizan para todo, desde para encontrar el amor hasta para decidir si, cuando nos han acusado de un crimen, iremos a prisión antes del juicio o nos permitirán pagar una fianza. Es preciso que comprendamos qué son estos datos y cómo se explotan. ¿Son los macrodatos una buena noticia o debemos protegernos de ellos? ¿Deberíamos ser más proclives a aclamar a los carpinteros o a preocuparnos por nuestro inconsciente papel de clavos?
La respuesta es que depende, y en este capítulo espero mostrar de qué depende.
El periodista Charles Duhigg, escribiendo en The New York Times Magazine en 2012, cuando el sentimiento general estaba a favor de los carpinteros, capturó la esencia de los macrodatos de forma bastante brillante con una anécdota sobre el departamento de descuentos de la tienda estadounidense Target.
Duhigg explicó que Target había recabado tantos datos de sus clientes, y se le daba tan bien analizarlos, que sus conocimientos sobre los clientes podían parecer magia. [9] La anécdota consistía en un hombre que entró hecho una furia en una tienda Target de Minneapolis y se quejó al encargado de que la empresa estaba enviando cupones para ropa de bebé y ropa premamá a su hija adolescente. El encargado se disculpó todo lo que pudo, y más tarde llamó de nuevo para volver a disculparse… y le dijeron que la hija adolescente, de hecho, sí que estaba embarazada. El padre no se había dado cuenta. Target, después de analizar sus compras de toallitas sin perfumar y suplementos vitamínicos, sí.
Pero ¿es verdadera brujería estadística? He hablado de esta historia con mucha gente y las reacciones son muy dispares. La mayoría se queda boquiabierta, sorprendida. Pero dos de los grupos con los que paso muchos ratos tenían una visión bastante distinta. Los periodistas suelen ser más cínicos; algunos sospechaban que Duhigg se lo había inventado, había exagerado o se había tragado un bulo callejero. (Yo lo que sospecho es que ellos tenían celos profesionales.) Los científicos de datos y los estadísticos, por otro lado, bostezaron. Consideraban que la anécdota no tenía nada de sorprendente ni de informativo. Y creo que los estadísticos tenían razón.
Primero, pensemos un momento en cuán increíble es predecir que una mujer está embarazada basándonos en sus hábitos de compra: no mucho. Tengamos en cuenta el consejo del Servicio Nacional de Salud sobre el suplemento vitamínico del ácido fólico:
Se recomienda a todas las mujeres que puedan quedarse embarazadas que tomen un suplemento diario de 400 microgramos de ácido fólico antes de quedarse encinta y durante las primeras 12 semanas de embarazo […]. Si no has tomado suplementos de ácido fólico antes de quedarte embarazada, deberías tomarlos en cuanto sepas que estás encinta […]. La única forma de tener la seguridad de que estás ingiriendo la cantidad necesaria es tomando un suplemento.
De acuerdo. Teniendo esto en cuenta, ¿a qué conclusión debería llegar si me dijeran que una mujer ha empezado a comprar ácido fólico? No necesito una cantidad de datos enorme o un proceso analítico brillante. No es magia. Está claro que es muy probable que esté embarazada. El algoritmo de Target no suponía un salto lógico sobrehumano, sino, más bien, muy humano: llegó a la misma conclusión a la que habríamos llegado tú y yo de haber tenido la misma información.
Es verdad que en ocasiones los humanos somos más lentos. Hannah Fry, autora de otro libro excelente sobre algoritmos, Hola mundo , se fija en el ejemplo de una mujer que compra en línea en el supermercado británico Tesco. [10] Vio que la sección «volver a comprar» de su carrito de la compra sugería condones, lo cual implicaba que el algoritmo sabía que alguien en su hogar había comprado condones antes. Pero ella no lo había hecho, y su marido tampoco tenía ninguna razón para hacerlo: no utilizaban condones. Así que dio por sentado que se trataba de un error técnico. Es decir, ¿qué otra explicación podía haber?
Cuando la mujer contactó con Tesco para quejarse, los representantes de la empresa concluyeron que no estaba dentro de sus tareas darle a esa mujer la mala noticia de que su marido la engañaba, así que optaron por la mentira piadosa: «¿Un error informático, señora? Seguro que está usted en lo cierto, esa debe de ser la razón. Disculpe la molestia». Fry me cuenta que esa es la regla básica en Tesco: disculparse y echar la culpa al ordenador.
Si un cliente ha comprado condones, es posible que vuelva a querer comprar condones. Si alguien adquiere una prueba de embarazo y luego empieza a comprar suplementos vitamínicos dirigidos a las mujeres embarazadas, es una conjetura razonable pensar que se trata de una mujer y que, en unos pocos meses, estará interesada en comprar ropa premamá y de bebé. Los algoritmos no están haciendo milagros estadísticos. Sencillamente, ven algo (condones, vitaminas para el embarazo) que se ha ocultado a otros humanos (la desconcertada mujer, el padre enfadado). Nos impresiona el algoritmo, en parte, porque no apreciamos la mundanidad de lo que ocurre en la chistera del mago.
Y hay otra perspectiva en la historia de Duhigg sobre el algoritmo de Tesco que nos invita a sobrestimar las capacidades del análisis informático basado en datos.
«Hay un problema enorme con los falsos positivos», afirma Kaiser Fung, un científico de datos que ha dedicado años a desarrollar estrategias similares para empresas y anunciantes. Fung se refiere a que no nos llegan las historias de mujeres que reciben cupones para ropa de bebé pero no están embarazadas. Al oír la anécdota, es fácil asumir que los algoritmos de Target son infalibles: que cualquier persona que recibe cupones de ropa para bebé o toallitas húmedas está embarazada. Pero nadie ha afirmado nunca que esto sea verdad. Y, casi con seguridad, no lo es: quizá todo el mundo reciba cupones para ropa de bebé. No podemos aceptar la idea de que el ordenador de Target lee las mentes sin tener en cuenta cuántos errores comete por cada acierto.
Puede pasar muchas cosas por alto, incluso en una conjetura fácil como «una mujer que compra ácido fólico puede estar embarazada». Las compras de ácido fólico no garantizan un embarazo. Puede que una mujer lo tome por cualquier otra razón. O quizá se lo está comprando a otra persona. O —e imagina su frustración cuando reciba cupones para ropa de bebé— estuvo embarazada pero abortó; o trata de quedarse embarazada sin éxito. Es posible que el algoritmo de Target sea tan brillante que descarte estos casos. Pero no es probable.
En el relato de Charles Duhigg, Target mezcla ofertas aleatorias, como cupones para copas de vino, porque las clientes embarazadas quizá se asusten si son conscientes de lo íntimamente que las entienden los ordenadores de la empresa. Pero Kaiser Fung tiene otra explicación: Target mezcla las ofertas no porque sea raro enviar un talón de cupones para ropa de bebé a una mujer embarazada, sino porque la empresa sabe que muchos de estos cupones se van a enviar a mujeres que no están embarazadas.
Es lo que tenía que haber dicho el encargado de la tienda: no se preocupe, estos cupones les llegan a mucha gente. ¿Por qué no lo hizo? A buen seguro porque entendía tan poco el algoritmo como cualquier otra persona. Igual que en el caso de Google, Target es renuente a compartir su algoritmo y sus conjuntos de datos con los investigadores —y la competencia— para comprender qué es lo que ocurre.
La situación más probable es la siguiente: el embarazo es una condición bastante fácil de detectar a través del patrón de compras, así que el algoritmo basado en datos de Target predice el embarazo mejor que una conjetura al azar. No obstante, no cabe duda de que su infalibilidad es escasa. Una conjetura al azar sería que cualquier mujer entre los quince y los cuarenta y cinco años tiene aproximadamente un 5 por ciento de posibilidades de estar embarazada en cualquier momento. Si Target acierta en un 10 o un 15 por ciento de las veces, ya merece la pena. Incluso un aumento modesto en la precisión de las ofertas personalizadas mejoraría los ingresos. Pero la rentabilidad no debe confundirse con la omnisciencia.
Así que empecemos por rebajar un poco las expectativas, tanto la idea apocalíptica de que Cambridge Analytica puede leer nuestra mente, como la promesa vertiginosa de que los macrodatos pueden sustituir sin dificultad procesos estadísticos más laboriosos como los de los CDC sobre los casos de gripe. Cuando comencé a sumergirme en los macrodatos, llamé a sir David Spiegelhalter, profesor de la Universidad de Cambridge, uno de los estadísticos más importantes del país y también un brillante divulgador. Le resumí las afirmaciones de los más entusiastas: la precisión increíble, la inutilidad de las muestras porque se captaban todos los datos y el rechazo soberano de los modelos científicos porque «las cifras hablan por sí solas».
Spiegelhalter no tuvo necesidad de cavilar en busca de un término técnico. Estas afirmaciones, dijo, «son gilipolleces. Una idiotez absoluta».
Lograr que los macrodatos funcionen es más difícil de lo que parece. Los estadísticos se han pasado los últimos doscientos años averiguando qué trampas están al acecho cuando tratan de comprender el mundo a partir de los datos. Hoy en día, hay más datos, son más rápidos y más baratos, pero no podemos pensar que se han detectado todas las trampas. No es así.
«Hay muchos problemas en los microdatos que también ponen palos en las ruedas a los macrodatos —añadió Spiegelhalter—. No desaparecen porque tengamos mucho material. Al contrario, empeoran.»
No importa demasiado que algunos lectores de Charles Duhigg sean demasiado crédulos sobre la precisión con la que Target personaliza los cupones para ropa de bebé. Pero sí importa que quienes ostentan el poder se vean intimidados por algoritmos que no comprenden y los utilicen para tomar decisiones que nos cambien la vida.
Uno de los ejemplos más sobrecogedores de Cathy O’Neil en su libro Armas de destrucción matemática es el algoritmo IMPACT que se emplea para valorar a los profesores en la ciudad de Washington. Como explica O’Neil, profesores muy queridos y respetados de las escuelas de la ciudad fueron despedidos después de que el algoritmo los valorara con puntuaciones muy bajas.
El algoritmo IMPACT afirmaba que podía medir la calidad de la enseñanza comprobando si los alumnos de una clase iban a mejor o a peor en las notas de los exámenes. [11] Pero medir la verdadera calidad de la enseñanza es difícil por dos razones. La primera es que, con independencia de lo bueno o lo malo que sea el profesor, el rendimiento de los alumnos individuales variará mucho. Con solo treinta alumnos por clase, gran parte de lo que mida el algoritmo será ruido; el hecho de que un par de niños tuvieran suerte adivinando las respuestas del examen al inicio del curso y en el examen final no tuvieran tanta suerte bastaría para modificar la clasificación del profesor. Y no debería ser así, porque es puro azar. Otra fuente de cambios que está fuera del alcance del profesor es cuando un niño tiene un problema grave fuera del colegio (cualquier cosa, una enfermedad, que sufra acoso, que hayan encarcelado a un familiar). No es el mismo tipo de ruido que tener suerte o no al adivinar preguntas, pero se refiere a algo real. Un sistema que detectara y evaluara señales de problemas fuera del colegio sería valioso. Pero sería estúpido e injusto culpar al profesor por los problemas del niño.
El segundo problema es que algunos profesores harán trampas y engañarán al algoritmo, y este engaño perjudicará las valoraciones de los profesores honestos. Si el profesor de sexto halla una manera de mejorar injustamente los resultados en los exámenes de sus alumnos —algo que ya ha ocurrido—, no solo se lo recompensará injustamente, sino que el profesor de séptimo, al año siguiente, se verá en un buen aprieto. Su clase estará llena de genios sobre el papel; mejorar será imposible a menos que encuentre una forma de hacer trampas.
La perspectiva de O’Neil, que es plausible, es que los datos están tan distorsionados que la tarea de valorar la competencia de un profesor es imposible para cualquier algoritmo. Sin duda, estos juicios particulares de los algoritmos, según los cuales los profesores no daban la talla, no siempre coincidían con la opinión de sus colegas o alumnos. Pero esto no evitó que las autoridades educativas de la ciudad de Washington despidieran a 206 profesores en 2011 por no cumplir con los estándares del algoritmo.
Hasta el momento nos hemos centrado en la credulidad excesiva en el poder de los algoritmos para extraer conocimientos de los datos. Pero hay otro problema relacionado con este: la credulidad excesiva en la calidad o en la exhaustividad del conjunto de datos.
En el capítulo anterior abordamos este problema. Literary Digest acumuló lo que se podría describir como macrodatos. Sin duda era un estudio masivo para los estándares de la época; incluso en la actualidad una base de datos con 2,4 millones de personas es impresionante. Pero las encuestas de Literary Digest no servirán para predecir los resultados de las elecciones si «las personas que responden a Literary Digest » difieren en algo esencial de «las personas que votan en las elecciones».
Google Flu Trends registró todas las búsquedas de Google, pero no todos los que cogen la gripe se ponen a buscar en Google. Su precisión dependía de que «las personas con gripe que consultaban Google» no diferían sistemáticamente de «las personas con gripe». La aplicación para detectar baches en la calzada que hemos analizado en el capítulo anterior no cumplía con su función porque confundía «las personas que se enteran de que existe la aplicación y la descargan» con «las personas que conducen alrededor de la ciudad».
¿Qué decir de la calidad? He aquí otro ejemplo instructivo de macrodatos de una fecha todavía más antigua que las elecciones estadounidenses de 1936: el sorprendente proyecto de determinar la temperatura habitual del cuerpo humano. Durante dieciocho años, el médico alemán del siglo XIX Carl Wunderlich reunió más de un millón de temperaturas corporales que tomó a más de 25.000 pacientes. ¡Un millón! Es un logro impresionante teniendo en cuenta la tecnología de papel y lápiz de la época. Wunderlich fue el hombre que estableció que la temperatura corporal normal es de 37 ºC. Nadie quiso llevarle la contraria, en parte porque la cantidad de datos era lo bastante amplia para inspirar respeto, y en parte porque el reto de rebatirla con una base de datos mejor y más extensa era una tarea abrumadora. El doctor Philip Mackowiak, experto en Wunderlich, lo dijo con las siguientes palabras: «Nadie estaba en posición o tenía la motivación de formar una base de datos de aquel tamaño.» [12]
Pero las cifras de Wunderlich estaban equivocadas. Normalmente, nuestra temperatura es un poco más baja (alrededor de un cuarto de grado). [13] La cantidad de datos era tan formidable que se tardó más de un siglo en determinar que aquel buen doctor estaba en un error. (29)
Entonces ¿cómo es que estos conjuntos de datos eran erróneos? Cuando el doctor Mackowiak descubrió uno de los viejos termómetros de Carl Wunderlich en un museo médico, pudo inspeccionarlo. Se dio cuenta de que el termómetro estaba descalibrado en dos grados centígrados, casi cuatro Farenheit. En parte, este error se subsanó por el hábito del doctor Wunderlich de tomar la temperatura en la axila en lugar de insertarlo en algunos orificios humanos que se suelen utilizar hoy en día para tomar la temperatura. Podemos hacer un millón de lecturas de temperatura, pero, si el termómetro es defectuoso y lo colocamos en las axilas, los resultados serán una estimación precisa de una respuesta equivocada. El dicho inglés de «si das basura, recibirás basura» sigue siendo verdad con independencia de la cantidad de basura que acumules.
Como hemos visto en el último capítulo, la versión moderna de este viejo problema es un algoritmo que extrae conclusiones de una base de datos sistemáticamente sesgada. Pasar por alto estos problemas es muy fácil. En 2014, Amazon, una de las empresas más valiosas del mundo, empezó a utilizar un algoritmo basado en datos para filtrar currículums; esperaban que el ordenador hallara patrones y escogiera a los mejores candidatos basándose en su similitud con antiguos solicitantes contratados por la empresa. Pero entre los últimos contratados la proporción de hombres era exagerada. El algoritmo hizo lo que hacen los algoritmos: identificó el patrón y aprendió de él. Al observar que en el pasado se habían preferido hombres, concluyó que los hombres eran preferibles. El algoritmo penalizaba la palabra «femenino», como en «Equipo femenino de fútbol internacional Su-21» o «Capitana del equipo femenino de ajedrez». Dio peor nota a ciertas universidades solo de mujeres. Amazon desechó el algoritmo en 2018; no está claro cuánta influencia tuvo en la toma de decisiones, pero Amazon admitió que los reclutadores de personal se habían estado fijando en las clasificaciones del algoritmo.
¿Recuerdas el titular «Las matemáticas son racistas»? Estoy bastante seguro de que las matemáticas no son racistas. Tampoco son misóginas, ni homófobas, ni tienen ningún tipo de sesgo. Pero estoy igual de seguro de que algunos humanos sí lo son. Y los ordenadores que se configuren según nuestros sesgos históricos repetirán esos sesgos, y eso justo cuando estamos tratando de dejarlos atrás. [14]
Espero haberte persuadido de que confiar nuestras decisiones a los algoritmos no es del todo deseable. Pero no quiero excederme con la crítica porque no tenemos una forma alternativa e infalible de tomar decisiones. La elección es entre los algoritmos y los seres humanos. Algunos seres humanos tienen prejuicios. Muchos están cansados, agobiados o saturados de trabajo. Y todos los seres humanos son, al fin y al cabo, seres humanos.
En la década de 1950, el psicólogo Paul Meehl investigó si los algoritmos más básicos —de reglas estadísticas sencillas— podrían superar al juicio humano experto. Por ejemplo, una paciente llega al hospital quejándose de dolor en el pecho. ¿Tiene una indigestión o está sufriendo un ataque al corazón? Meehl comparó el veredicto de médicos experimentados con el resultado de trabajar con una breve lista de verificación. ¿El síntoma principal es el dolor en el pecho? ¿La paciente ha padecido ataques al corazón con anterioridad? ¿Qué patrones cuantificables aparecen en el cardiograma? [15] Para su sorpresa, un sencillo árbol de decisión acertó el diagnóstico con más frecuencia que los médicos. Y no fue un caso único. Muy a menudo, descubrió Meehl, los expertos se equivocaban más que las listas de verificación. Meehl se refería a su Clinical vs. Statistical Prediction como «mi librillo perturbador». [16]
Así que, para ser justos, deberíamos comparar la fiabilidad de los algoritmos actuales con la de los humanos que tomarían decisiones en su lugar. Un buen lugar por el que empezar es con un ejemplo de Hola mundo , el libro de Hannah Fry.
La historia comienza durante las manifestaciones de Londres en 2011. Aunque arrancaron como una protesta contra la brutalidad policial, degeneraron en altercados violentos que tenían lugar cada noche en la capital y en muchas otras ciudades del país. Las tiendas bajaban la persiana a primera hora de la tarde y los ciudadanos respetuosos de la ley corrían a su casa porque sabían que los alborotadores oportunistas camparían a sus anchas a la que oscureciera. En tres días de protestas fueron arrestadas más de un millar de personas.
Entre ellos se encontraban Nicholas Robinson y Richard Johnson. Robinson se abrió paso entre el caos de un supermercado londinense que habían asaltado y se llevó una caja de agua embotellada. Johnson fue en coche a una tienda de videojuegos, se puso un pasamontañas y se agenció un puñado de juegos. El robo de Johnson era de mayor valor, y además fue premeditado, no se había dejado llevar por un arrebato. Sin embargo, a Robinson le cayeron seis meses de prisión y Johnson no tuvo que pisar la cárcel. Ningún algoritmo es responsable de esta diferencia. Fueron jueces humanos los que redactaron las sentencias, y la diferencia parece difícil de explicar.
Siempre cabe la posibilidad de que ambos jueces tomaran la decisión acertada basándose en algún detalle sutil del caso. Pero la respuesta más plausible a este tratamiento incoherente de ambos hombres es que a Robinson lo sentenciaron solo dos semanas después de los altercados, en un momento en que todos estaban de los nervios y el tejido de la civilización parecía estar desintegrándose. A Johnson lo juzgaron unos meses después, cuando el recuerdo de los altercados estaba desvaneciéndose y todos se preguntaban a santo de qué había ocurrido todo aquello. [17]
¿Un programa informático basado en datos habría sabido abstraerse del entorno y redactar sentencias más justas? Es imposible saberlo, pero cabe suponer que sí. Hay una gran variedad de pruebas que demuestran que los jueces no son especialmente coherentes. Una forma de comprobarlo es mostrar casos hipotéticos a varios jueces y ver si llegan a conclusiones diferentes. En efecto, llegan a conclusiones diferentes. En un estudio británico de 2001 se pidió a un grupo de jueces que juzgara una serie de casos; algunos de ellos (presentados con una diferencia de tiempo para disimular la treta) eran repeticiones de casos anteriores pero con los nombres y otros detalles irrelevantes cambiados. Los jueces ni siquiera estaban de acuerdo con sus sentencias anteriores en un caso idéntico. Podemos estar bastante seguros de que un ordenador no cometerá este tipo de errores. [18]
El economista Sendhil Mullainathan y cuatro colegas llevaron a cabo un estudio más reciente en Estados Unidos. Analizaron más de 750.000 casos de la ciudad de Nueva York entre 2008 y 2013, casos en los que alguien había sido arrestado y la decisión consistía en liberar al acusado, encarcelarlo o fijar una fianza para la liberación. Los investigadores pudieron comprobar qué acusados cometieron crímenes con posterioridad. Entonces, utilizaron parte de estos casos (220.000) para programar un algoritmo que decidiera si debía liberar, encarcelar o fijar una fianza. Y después aprovecharon el resto de los casos para verificar si el algoritmo funcionaba o no en comparación con los jueces humanos. [19]
A los humanos no les fue bien. El algoritmo de los investigadores podía haber reducido el crimen en casi un 25 por ciento al encarcelar a un grupo de acusados mejor seleccionados. Y, además, habría encarcelado a un 40 por ciento menos de personas sin que se incrementara el crimen. Se podían haber evitado miles de delitos, o miles de personas habrían estado en libertad mientras esperaban el juicio, porque, sencillamente, el algoritmo era más preciso que los jueces humanos.
Un error importante que cometen los jueces es lo que el profesor de derecho Cass Sunstein denomina «sesgo del delito actual»: al tomar la decisión sobre la fianza, los jueces se centran demasiado en el delito específico del que se acusa al reo. Es decir, los acusados con un historial que los señala como de alto riesgo reciben un trato de bajo riesgo si el delito que han cometido es menor; y, a la inversa, los acusados con un historial de bajo riesgo reciben un trato de alto riesgo si el delito que han cometido es grave. El algoritmo aprovecha bien esta información valiosa, pero los jueces humanos —con toda su inteligencia, experiencia y formación— suelen pasarla por alto.
Parece que esta es la forma de operar de los humanos. Fijémonos en cómo he descrito los casos de Nicholas Robinson y Richard Johnson: he señalado los delitos en cuestión, pero nada acerca de Robinson y Johnson. Me ha parecido razonable —y quizá a ti también— contar los hechos a corto plazo, los delitos de aquel momento determinado. Un algoritmo habría utilizado más información si hubiera estado disponible. Quizá un humano no lo hubiera hecho.
Hay mucha gente que tiene una opinión muy clara sobre si prefieren que sea un algoritmo o un humano quien tome una decisión vital. A algunas personas les impresionan muchísimo las capacidades de los algoritmos; otras tienen una fe inquebrantable en el juicio humano. La verdad es que a veces los algoritmos lo hacen mejor que los humanos, y otras, no. Si queremos evitar estos problemas y aprovechar todas las posibilidades de los macrodatos, deberemos valorar la actuación de los algoritmos caso por caso. Con demasiada frecuencia es mucho más difícil de lo que debería ser.
Pongamos por ejemplo la siguiente situación. La policía o los servicios sociales reciben una llamada —de un vecino, un abuelo, un médico, un profesor— que muestra preocupación sobre un niño. En ocasiones, el niño se halla de verdad en peligro; en otras, quien llama puede estar equivocado, o tener un exceso de angustia, o incluso ser malintencionado. En un mundo ideal, no correríamos riesgos y mandaríamos una patrulla para ver qué está sucediendo. Pero no tenemos recursos suficientes para hacer eso cada vez que ocurre, así que tenemos que priorizar. Hay mucho en juego: las cifras oficiales de Estados Unidos muestran que en 2015 murieron 1.670 niños debido a abusos o negligencias. Es una cifra terrible, pero es también una fracción diminuta de los cuatro millones de veces que la gente llama para informar de su preocupación a propósito de un niño.
¿Qué llamadas se deben comprobar y qué llamadas se deben ignorar? Muchos departamentos de policía y servicios sociales utilizan un algoritmo para tomar esta decisión. El estado de Illinois introdujo uno de estos algoritmos, llamado Rapid Safety Feedback. Analizaba los datos de cada informe, los comparaba con los resultados de casos previos y generaba un porcentaje de predicción de que el niño corriera el riesgo de morir o sufrir daños.
Los resultados no fueron impresionantes. El Chicago Tribune informó de que el algoritmo dio un 100 por ciento de probabilidad de lesión grave o muerte a 369 niños. Por muy terrible que sea el ambiente doméstico, este grado de certidumbre parece pesimista en exceso. También podría tener implicaciones graves: una alegación falsa de negligencia o abuso infantil podría tener consecuencias devastadoras tanto para los acusados como para los niños.
Pero ¿es posible que el algoritmo fuera demasiado prudente y exagerara el riesgo de lesión porque estaba diseñado para no pasar por alto ni un solo caso? No: en algunos casos horribles los niños murieron después de que se les asignara un porcentaje de riesgo demasiado bajo para enviar a la patrulla. Illinois decidió que esta tecnología era inútil, o peor que eso, y dejó de usarla. [20]
La moraleja de esta historia no es que no se deben emplear algoritmos para valorar los informes de niños vulnerables. Alguien o algo debe tomar la decisión sobre qué casos se deben abordar. Los errores son inevitables, y no hay razón alguna —en principio— para que otro algoritmo no cometa menos errores que un humano. [21] La moraleja es que conocemos las limitaciones de este algoritmo particular porque generó unas cifras que eran claramente absurdas.
«Es positivo que generen probabilidades numéricas, porque actúan como una alarma que nos hace ser conscientes de que son malas cifras —explica el estadístico Andrew Gelman—. Habría sido peor que el algoritmo solo hubiera etiquetado las predicciones como de “alto riesgo”, “riesgo medio” y “riesgo bajo”.» En ese caso los problemas nunca habrían salido a la luz. [22]
Así que el problema no es el algoritmo, o las grandes bases de datos. El problema es una falta de control, transparencia y debate. Y la solución, como voy a argumentar, se remonta a mucho tiempo atrás.
A mediados del siglo XVII , se empezó a perfilar una distinción entre la alquimia y lo que consideramos la ciencia moderna. Es una distinción que deberíamos recordar si queremos prosperar en un mundo de algoritmos con macrodatos.
En 1648, el cuñado de Blaise Pascal, a instancias del gran matemático francés, llevó a cabo un famoso experimento. En el jardín de un monasterio de la pequeña ciudad de Clermont-Ferrand, cogió un tubo lleno de mercurio, colocó la abertura boca abajo en un cuenco lleno del mismo metal líquido, y lo puso en posición vertical. Parte del mercurio pasó inmediatamente al cuenco, pero parte no. En el tubo había una columna de mercurio de 711 milímetros y por encima de ella un espacio que contenía… ¿Qué? ¿Aire? ¿Vacío? ¿Un éter misterioso? [23]
Esta era solo la primera fase del experimento que había propuesto Pascal, y no carecía de precedentes. Gasparo Berti había hecho algo similar con agua en Roma, aunque, con agua, el tubo de cristal debe tener más de diez metros de largo, y no era fácil hacer uno. Evangelista Torricelli, un alumno de Galileo, fue el hombre al que se le ocurrió la idea de hacer el experimento con mercurio, que requería un tubo mucho más corto.
La idea de Pascal —o quizá fue de su amigo Descartes, puesto que ambos reclamaron su atribución— consistía en replicar el experimento a cierta altitud. Así que fue el cuñado de Pascal quien recibió el encargo de llevar varios tubos de cristal y unos cuantos kilos de mercurio a la cima del Puy de Dôme, un enorme volcán durmiente en el centro de Francia, más de un kilómetro por encima de Clermont-Ferrand. En lo alto de la montaña, el mercurio no alcanzó 711 milímetros, sino solo 627 milímetros. En mitad de la montaña, el mercurio se elevó más que en la cima, pero menos que en el jardín. Al día siguiente, se midió el tubo en lo alto de la catedral de Clermont-Ferrand. El mercurio se elevaba cuatro milímetros menos que en el jardín del monasterio. Pascal había inventado lo que ahora llamamos barómetro y, al mismo tiempo, el altímetro, un aparato que mide la presión del aire e, indirectamente, la altitud. En 1662, solo catorce años después, Robert Boyle formuló su famosa ley del gas, que describía la relación entre la presión y el volumen de un gas. Se trató de un progreso rápido y bastante moderno del estado del conocimiento científico.
Pero, a la vez, se seguía practicando la antigua disciplina de la alquimia, la búsqueda de una forma de convertir metales primarios en oro y de producir el elixir de la vida eterna. Estos objetivos son, por lo que sabemos ahora, imposibles, (30) pero si la alquimia se hubiera basado en los métodos científicos cabría haber esperado que todas estas investigaciones hubieran creado un rico conjunto de fracasos informativos y una evolución gradual hacia la química moderna.
No es lo que ocurrió. La alquimia no evolucionó hacia la química. Se estancó y, con el tiempo, la ciencia la dejó de lado. Pero durante un período ambas disciplinas existieron en paralelo. Así que, ¿qué las distinguía?
Por descontado, la ciencia moderna utiliza el método experimental, como tan bien demostraron el esforzado cuñado de Pascal, Torricelli, Boyle y otros. Pero también lo hacía la alquimia. Los alquimistas eran experimentadores incansables. El problema es que sus experimentos no generaban una información que los ayudara a avanzar como disciplina. El uso de los experimentos no explica por qué la química prosperó y la alquimia desapareció.
¿Se trataba, entonces, de quienes las practicaron? ¿Quizá los primeros grandes científicos, como Robert Boyle e Isaac Newton, eran más brillantes, inteligentes y creativos que los alquimistas que los precedieron? Esa es una explicación nada convincente. Dos de los principales alquimistas del siglo XVII fueron Robert Boyle e Isaac Newton. Eran alquimistas convencidos, incluso fervientes, lo que por suerte no imposibilitó sus enormes contribuciones a la ciencia moderna. [24]
No: con frecuencia, los alquimistas eran esas mismas personas que utilizaban los mismos métodos experimentales para intentar comprender el mundo que las rodeaba. Lo que diferenciaba a la alquimia de la ciencia, asegura el historiador de la ciencia David Wootton, es que la alquimia se practicaba en secreto, mientras que la ciencia estaba abierta al debate. A finales de la década de 1640, una pequeña red de experimentadores en Francia, entre los que se hallaba Pascal, trabajaron a la vez en experimentos al vacío. Se sabe que como mínimo un centenar de personas hicieron este tipo de experimentos entre el de Torricelli en 1643 y la formulación de la ley de Boyle en 1662. «Este centenar de personas fueron la primera comunidad dispersa de científicos experimentales», afirma Wootton. [25]
En el centro de esta telaraña de conocimientos se encontraba Marin Mersenne, monje, matemático y catalizador de la colaboración científica y la competencia abierta. Mersenne era amigo de Pascal y Descartes, así como de pensadores como Galileo y Thomas Hobbes, hacía copias de las cartas que recibía y las reenviaba a quienes pensaba que podrían interesarles. Su correspondencia era tan prolífica que llegó a ser conocido como «el buzón de Europa». [26]
Mersenne murió en 1648, menos de tres semanas antes del experimento en el Puy de Dôme, pero sus ideas sobre la colaboración científica le sobrevivieron, adoptaron la forma de la Royal Society de Londres (creada en 1660) y la Academia Francesa de las Ciencias (creada en 1666), ambas basadas en los principios de Mersenne. Una de las virtudes de esta nueva estrategia, bien comprendida en aquella época, fue la reproducibilidad, que, como hemos visto en el capítulo quinto, es una verificación vital para determinar los fraudes y los errores. El experimento del Puy de Dôme se podía repetir y se repitió en todos los lugares donde había una montaña considerable o un edificio alto. «Todos los curiosos pueden probarlo por sí mismos cuando quieran», escribió Pascal. Y así lo hicieron.
Mientras que el debate sobre el vacío, los gases y los tubos de mercurio se expandía vigorosamente a través de cartas, publicaciones y reuniones en la casa de Mersenne en París, los experimentos alquímicos se llevaban a cabo en secreto. No es difícil imaginar por qué: no hay ningún valor en convertir el plomo en oro si todos lo pueden hacer. Ningún alquimista quería compartir sus fracasos potencialmente instructivos con nadie más.
El secretismo alimentaba esa misma situación. Una de las razones por las que la alquimia duró tanto, y que provocó que académicos brillantes como Boyle y Newton se la tomaran en serio, fue la presunción de que los problemas alquímicos habían sido resueltos por las generaciones anteriores pero los mantuvieron en secreto y luego se perdieron. Cuando Newton hizo la famosa declaración de que «si he podido ver más allá ha sido porque me he subido a hombros de gigantes», se refería a su trabajo científico. Como alquimista, no se subió a los hombros de nadie y vio bastante poco.
Cuando Boyle quiso publicar algunos de sus descubrimientos, y contactó con otros alquimistas, Newton le advirtió de que lo dejara correr y mantuviera «un altivo silencio». Y cuando estuvo claro que la nueva y abierta comunidad científica estaba haciendo progresos rápidos, la alquimia quedó por completo desacreditada en el período de una generación. En resumen, y según las palabras de Wootton:
Lo que acabó con la alquimia fue la insistencia en que los experimentos debían compartirse abiertamente en publicaciones que presentaran una exposición clara de lo que había ocurrido, y luego debían replicarse, preferentemente ante testigos independientes. Los alquimistas habían alcanzado algunos conocimientos secretos […], ciertos conocimientos los podía aprovechar […] la nueva química, pero gran parte se tuvo que descartar porque era incomprensible e irreproducible. El conocimiento esotérico fue sustituido por una nueva forma de conocimiento que dependía tanto de la publicación como de la demostración pública o semipública. [27]
La alquimia no es lo mismo que configurar grandes bases de datos y desarrollar algoritmos que reconocen patrones. Es evidente que la alquimia es imposible, y los conocimientos a partir de los macrodatos no lo son. Pero los paralelismos también deberían ser obvios. Google, Target y empresas similares no son más proclives a compartir sus datos y algoritmos que Newton a compartir sus experimentos alquímicos. En ocasiones, existes razones legales o éticas —si pretendemos que nuestro embarazo sea secreto, no querremos que Target haga públicas nuestras compras de ácido fólico—, pero las razones más importantes son comerciales. Los datos que Amazon, Apple, Facebook, Google y Microsoft tienen de nosotros son oro. Y este oro valdrá mucho menos si el conocimiento que genera es compartido con todos.
Pero, de la misma forma que los pensadores más brillantes de la época no lograron progresar porque experimentaban en secreto, los algoritmos secretos basados en datos secretos dejarán pasar buenas oportunidades para mejorar. De nuevo, no es demasiado importante si Target desaprovecha una forma algo más efectiva de personalizar los cupones para ropa de bebé. Pero cuando los algoritmos están despidiendo a profesores capaces, llevando a los servicios sociales a los hogares equivocados, o descartando a solicitantes de trabajo que estudiaron en universidades femeninas, es necesario que podamos escrutarlos.
Pero ¿cómo hacerlo?
Una posibilidad es la que utiliza el equipo de periodistas de investigación de ProPublica, dirigido por Julia Angwin. El equipo de Angwin quería analizar un algoritmo de uso común llamado COMPAS (Evaluación de los Acusados para Sanciones Alternativas, por sus siglas en inglés). COMPAS aprovechaba las respuestas a un cuestionario de 137 preguntas para evaluar el riesgo de que un criminal reincidiera. Pero ¿funcionaba? Y ¿era justo?
No fue fácil averiguarlo. COMPAS es propiedad de una empresa, Equivant (anteriormente, Northpointe), que no tiene obligación alguna de compartir los detalles sobre cómo funciona. De modo que Angwin y su equipo debieron examinarlos a partir de los resultados, que había agrupado con mucho esfuerzo el condado de Broward en Florida, un estado con unas leyes de transparencia muy exigentes.
He aquí el relato de cómo hizo su trabajo el equipo de ProPublica:
Gracias a una petición de historiales públicos, ProPublica obtuvo las puntuaciones de COMPAS durante dos años de la comisaría del condado de Broward, en Florida. Recibimos datos de 18.610 personas que realizaron el cuestionario entre 2013 y 2014 […]. Cada acusado, antes del juicio, obtuvo tres puntuaciones de COMPAS: «Riesgo de reincidencia», «Riesgo de violencia» y «Riesgo de incomparecencia». Las puntuaciones de COMPAS para cada acusado iban del 1 al 10, siendo esta última la de mayor riesgo. Las puntuaciones de 1 a 4, según COMPAS, eran «bajas»; de 5 a 7 eran «medias»; y de 8 a 10 eran «altas». Con la base de datos de COMPAS como punto de partida, generamos un perfil del historial criminal de cada persona, tanto antes como después de que la puntuaran. Consultamos los historiales criminales públicos en la página web de la comisaría del condado de Broward el 1 de abril de 2016. De media, los acusados de la base de datos no fueron encarcelados durante 622,87 días (desviación típica: 329,19). Comparamos los historiales criminales con los historiales de COMPAS utilizando el nombre, el apellido y la fecha de nacimiento de los acusados […]. Descargamos alrededor de 80.000 historiales criminales de la página web de la comisaría del condado de Broward. [28]
Y así continúa. Fue una labor extenuante.
Al final, ProPublica publicó sus conclusiones. Aunque el algoritmo de COMPAS no utilizaba la raza del acusado como parámetro, generaba, sin embargo, unos resultados racistas. Tendía a generar falsos positivos para acusados negros (predecía que reincidirían, pero era algo que después no ocurría) y falsos negativos para acusados blancos (predecía que no reincidirían, pero luego sí lo hacían).
Parece algo bastante preocupante: la discriminación racial es inmoral e ilegal cuando la comete un humano; tampoco debemos tolerarla si proviene de un algoritmo.
Pero, después, cuatro investigadores académicos, Sam Corbett-Davies, Emma Pierson, Avi Feller y Sharad Goel, señalaron que la situación no era tan clara. [29] Utilizaron los datos que tan laboriosamente había reunido ProPublica para demostrar que el algoritmo era justo según otro parámetro importante, que consistía en que, si el algoritmo daba a dos criminales, uno blanco y otro negro, la misma puntuación de riesgo, el riesgo real de que reincidieran era el mismo. En este aspecto importante, el algoritmo no veía color alguno.
Es más, los investigadores demostraron que era imposible que el algoritmo fuera justo en ambos aspectos al mismo tiempo. Era posible crear un algoritmo que diera un falso positivo para todas las razas, y era posible crear un algoritmo en el que las puntuaciones de riesgo concordaran con el riesgo de reincidir para todas las razas, pero era imposible hacer ambas cosas a la vez: las cifras no podían encajar.
La única forma de configurar un algoritmo para que generase resultados equivalentes en diferentes grupos —ya se definan por edad, género, raza, color de pelo, altura u otro criterio— sería que los grupos se comportaran y fueran tratados de manera idéntica. Si en el mundo actuaran de forma diferente, el algoritmo, inevitablemente, violaría al menos uno de los criterios de justicia cuando los evaluara. Es algo que se cumpliría tanto si se comunicara o no al algoritmo la edad, el género, el color de pelo o la altura. También se cumpliría en un juez humano; es una cuestión de aritmética.
Julia Dressel y Hany Farid, que también son informáticos, prestaron atención a este debate sobre si COMPAS generaba resultados con un sesgo racial. Les pareció que alguna pieza no encajaba. «En el debate, había la presunción subyacente de que las predicciones del algoritmo eran inherentemente mejores que las humanas —dijo Dressel al divulgador científico Ed Yong—, pero no conseguí encontrar ninguna investigación que lo demostrara.» [30]
Gracias al trabajo preliminar de ProPublica, Dressel y Farid pudieron investigar esta cuestión. Aunque COMPAS, en sí mismo, era secreto, ProPublica había publicado suficientes resultados para que fuera posible ponerlo a prueba a partir de otros puntos de referencia. Uno era un modelo matemático simple con solo dos variables: la edad del acusado y el número de delitos anteriores. Dressel y Farid demostraron que el modelo de dos variables era tan preciso como el muy elogiado modelo de 137 variables. Dressel y Farid también compararon las predicciones de COMPAS con el juicio de humanos corrientes no expertos, a quienes se les mostró siete datos de cada acusado y se les pidió que predijeran si reincidiría en un período de dos años. La media de algunas de estas predicciones por parte de los no expertos fue mejor que la del algoritmo COMPAS.
Desconcertante. Como declaró Farid, quizá a un juez le chocaría que le dijeran que un algoritmo basado en datos había determinado que una persona era de alto riesgo, pero le chocaría mucho menos si le dijeran: «Oye, he preguntado a veinte personas aleatorias en la red si esta persona iba a reincidir y han dicho que sí». [31]
¿Es pedir demasiado que COMPAS juzgue mejor que veinte personas aleatorias de internet? No parece que eso sea poner el listón muy alto; sin embargo, estaba fuera del alcance de COMPAS. [32]
Demostrar las limitaciones del algoritmo COMPAS no fue difícil una vez que los datos de ProPublica sobre la toma de decisiones de COMPAS se hicieron públicos para que los investigadores los analizaran y debatieran sobre ellos. Mantener en secreto los algoritmos y las bases de datos es propio de una mentalidad de alquimista. ¿Compartirlos para que se puedan analizar, debatir y —con suerte— mejorar? Esa es la mentalidad científica.
En los discursos de los políticos tradicionales de centro o en los comentarios de los medios es habitual encontrar declaraciones como «los niveles de confianza están cayendo», o «necesitamos reforzar la confianza». La baronesa Onora O’Neill, que se ha convertido en una autoridad en la materia, sostiene que estas preocupaciones son el producto de un pensamiento defectuoso: confiamos en personas o instituciones específicas para hacer tareas específicas. (Por ejemplo: tengo un amigo en quien nunca confiaría para que mandara una carta por mí, pero le dejaría cuidar de mis hijos sin problema.) La confianza debería ser discriminatoria: deberíamos confiar en quienes lo merecen, y desconfiar de los incompetentes o los maliciosos. [33]
Como las personas, los algoritmos no merecen una confianza generalizada. Como con las personas, en lugar de «¿Deberíamos confiar en los algoritmos?», tendríamos que preguntarnos «¿En qué algoritmos podemos confiar?» y «¿Qué tareas deberíamos confiarles?».
Onora O’Neill argumenta que, si queremos garantizar la confianza, es necesario que la base de nuestras decisiones sea «inteligentemente abierta». Propone una lista de verificación de cuatro propiedades que deberían tener las decisiones inteligentemente abiertas. La información tiene que ser accesible: esto implica que no debe estar oculta en un secreto cofre de datos. Las decisiones tienen que ser comprensibles: se deben poder explicar de manera clara y con un lenguaje sencillo. La información tiene que ser utilizable: algo tan sencillo como que los datos estén disponibles en un formato digital estándar. Y las decisiones deben ser valorables: cualquiera con tiempo y experiencia tiene los detalles necesarios para evaluar rigurosamente cualquier afirmación o decisión.
Los principios de O’Neill parecen una forma inteligente de abordar los algoritmos a los que confiamos responsabilidades importantes, tales como liberar a un preso o responder a una llamada de abuso infantil. Debería ser posible que los expertos independientes miraran bajo la alfombra para comprender cómo toman decisiones los ordenadores. Cuando contamos con protecciones legales —por ejemplo, prohibir la discriminación por raza, sexo o género—, debemos garantizar que los algoritmos cumplen con los mismos estándares que esperamos de los humanos. Como mínimo, eso significa que los algoritmos deben poder escrutarse en un juzgado.
Cathy O’Neil, autora de Armas de destrucción matemática , sostiene que los científicos de datos deberían formar una sociedad profesional con un código ético, como los médicos. Esto permitiría que los integrantes que discrepen tuvieran a alguien a quien quejarse cuando el empleador (por ejemplo, Facebook) les pidiera hacer algo que consideraran poco ético o, como mínimo, que no cumpliera con los estándares de responsabilidad que han acordado entre todos. [34]
Otro paralelismo con la práctica de la medicina es que los algoritmos importantes deberían verificarse con pruebas controladas aleatorias. Si los creadores de un algoritmo afirman que filtrará a los buenos profesores, o que recomendará la fianza para los criminales adecuados, la respuesta debería ser: «Demuéstrenlo». La historia de la medicina nos enseña que las ideas que parecen plausibles pueden ser defectuosas cuando se las somete a una prueba justa. Los algoritmos no son medicinas, así que limitarnos a clonar una organización como la Administración de Medicamentos y Alimentos estadounidense no funcionará; debemos poder hacer las pruebas en plazos más cortos y adoptar una perspectiva diferente sobre lo que es el consentimiento fundamentado. (Los ensayos clínicos tienen requisitos para garantizar que los sujetos han accedido a participar; no está claro cómo serían esos requisitos cuando un algoritmo puntúa a profesores o a sospechosos criminales.) Aun así, cualquiera que confíe en la efectividad de su algoritmo no debería tener ningún problema en demostrarla con una prueba justa y rigurosa. Y las instituciones vitales como las escuelas y los juzgados no deberían estar dispuestas a utilizar estos algoritmos a gran escala a menos que hayan demostrado su validez.
Es evidente que no todos los algoritmos suscitan preocupaciones de este calibre. No sería de interés público obligar a Target a que dejara que los investigadores analizaran cómo deciden quién recibe un cupón de ropa de bebé. Se debe tratar caso por caso. El tipo de responsabilidad y transparencia que deseamos depende de los problemas que queramos resolver.
Es posible, por ejemplo, que queramos distinguir el algoritmo de YouTube para recomendar vídeos del de Netflix para recomendar películas. En YouTube hay muchos contenidos perturbadores, y su motor de recomendación se ha hecho famoso por su supuesta tendencia a sugerir vídeos cada vez más radicales y conspirativos. No están claras las pruebas que sostienen que YouTube es un motor de radicalización, pero, sin más transparencia, es imposible estar seguros. [35]
Netflix ilustra un problema diferente: la competencia. Su algoritmo de recomendación se nutre de una base de datos secreta y enorme de los clientes que han visto películas. Amazon cuenta con una base de datos similar y también secreta. Supongamos que soy un joven emprendedor con la brillante idea de un nuevo algoritmo que predice qué películas le gustarán a un cliente basándose en sus elecciones previas. Sin los datos para probarla, mi brillante idea nunca se hará realidad. No hay una razón particular por la que debamos preocuparnos sobre cómo funcionan los algoritmos de Amazon y Netflix, pero ¿hay una razón para obligarlos a hacer públicas sus bases de datos para promocionar una competencia en el diseño de algoritmos que en última instancia beneficiará a los clientes?
Existe un problema obvio: la privacidad. Tal vez pienses que es un problema fácil de solucionar: se suprimen los nombres de los historiales y los datos serán anónimos. Pero no corras tanto: con una base de datos rica, y cruzándola con otras bases de datos, suele ser facilísimo saber quién es el individuo #961860384. En una ocasión, Netflix hizo pública una base de datos anónima para que los investigadores trataran de encontrar un algoritmo de recomendación mejor. Por desgracia, resultó que una clienta había colgado la misma crítica de una película familiar en Netflix y, bajo su nombre real, en la página web de Internet Movie Database. Sus críticas en Netflix, que a partir de ese momento dejaron de ser anónimas, revelaron que le atraían otras mujeres, algo que prefería mantener en secreto. [36] Demandó a la empresa por «sacarla del armario»; llegaron a un acuerdo que no se hizo público.
No obstante, hay otras formas de avanzar. Una es garantizar un acceso seguro a investigadores certificados. Otra es hacer públicos datos «distorsionados», donde todos los detalles individuales sean inexactos pero sea posible extraer conclusiones rigurosas de la población en su conjunto. Empresas como Google o Facebook obtienen una ventaja competitiva enorme de sus bases de datos: pueden cortar de raíz a competidores menores, o utilizar los datos de un servicio (como Google Search) para promocionar otro (como Google Maps o Android). Si parte de estos datos estuvieran disponibles, otras empresas podrían aprender de ellos, crear servicios mejores y desafiar a los gigantes. También los científicos y los sociólogos podrían aprender mucho; un modelo posible es exigir que las bases de macrodatos privadas se hagan públicas pasado cierto tiempo con las adecuadas protecciones de anonimato. Al cabo de tres años, las bases de datos quizá ya no sirvan para propósitos comerciales, pero siguen teniendo un valor científico tremendo.
Hay un precedente de todo esto: los titulares de patentes deben publicar sus ideas para contar con la protección de la propiedad intelectual. Quizá se podría ofrecer, o imponer, un sistema parecido a los poseedores privados de grandes bases de datos.
Los macrodatos están revolucionando el mundo que nos rodea, y es fácil sentirse alienado por estos ordenadores que toman decisiones de una manera que no comprendemos. Creo que hay razones para preocuparse. Los análisis modernos de datos pueden generar algunos resultados milagrosos, pero, en general, se puede confiar menos en los macrodatos que en los microdatos. Normalmente, es posible escrutar los microdatos; los macrodatos, en cambio, suelen estar encerrados en un cofre de Silicon Valley. Por lo general, las sencillas herramientas estadísticas utilizadas para analizar los microdatos son fáciles de verificar; los algoritmos que reconocen patrones suelen ser misteriosos y se convierten en cajas negras comercialmente sensibles.
He tratado de explicar que debemos ser escépticos, tanto respecto al entusiasmo como a la histeria. Deberíamos hacer preguntas rigurosas, caso por caso, siempre que haya alguna razón por la que preocuparse. ¿Los datos en los que se basan los algoritmos son accesibles? ¿Se ha valorado con rigor la actuación del algoritmo, por ejemplo, con una prueba aleatoria para comprobar si la gente toma mejores decisiones con o sin el algoritmo? ¿Expertos independientes han podido evaluar el algoritmo? ¿A qué conclusión han llegado? No deberíamos limitarnos a presumir que los algoritmos trabajan mejor que los humanos, ni tampoco dar por supuesto que si los algoritmos tienen defectos, los humanos no tendrán ninguno.
Pero hay un recurso estadístico en el que creo que, al menos los ciudadanos de los países más ricos, podríamos confiar más de lo que lo hacemos. Veamos a continuación cuál es este recurso.