Entre los cuadros más sorprendentes de Miguel Ángel se encuentran las cinco sibilas en el techo de la Capilla Sixtina (figura 52). Las sibilas eran mujeres de la antigüedad con inspiración divina que tenían el poder legendario de ser capaces de ver el futuro. En las pinturas de Miguel Ángel podemos ver que las sibilas sostienen libros especiales en los cuales están escritas las profecías. A las sibilas se les consultaba por lo mismo que se consulta hoy en día a las pitonisas: para conocer lo que se nos avecina. Damos un gran valor a ser capaces de predecir el futuro porque si sabemos lo que está a punto de ocurrir, podemos prepararnos y ajustar nuestras acciones en consecuencia.
La predicción del futuro no es solo un atributo de sibilas, profetas y pitonisas, sino que forma parte de la vida cotidiana: predecimos tan a menudo que apenas somos conscientes de ello. Cuando volvemos una página de este libro, esperamos encontrarnos otro texto. Si nos encontráramos las páginas en blanco, nos sorprendería y nos preguntaríamos si hubo algún problema en la impresión del libro. De igual forma, si soltamos el libro en algún lugar y nos vamos a tomar un café, esperamos que el libro se encuentre donde lo dejamos a nuestro regreso. Podría parecer más bien pretencioso llamar predicciones a tales expectativas modestas, pero eso es lo que son. Cada expectativa que tenemos sobre el futuro es una predicción, una anticipación de lo que ocurrirá después. Si no estuviéramos haciendo predicciones continuamente, la vida nos resultaría imposible porque estaríamos en un estado continuo de ansiedad, sin conocer nunca ni lo que habrá a la vuelta de la esquina ni lo que debemos esperar.1
FIGURA 52. Sibila de Libia, Miguel Ángel Buonarroti, 1511.
Hacer predicciones no es exclusivo de los humanos, sino que hay muchas otras criaturas con la misma capacidad. Si estamos a punto de lanzar una pelota a un perro, observaremos en sus ojos y gestos cómo se anticipa o predice cuándo y cómo se la vamos a tirar. O si el propietario del perro se pone el abrigo para salir, aumentará la excitación del animal al anticipar que van a sacarlo de paseo. Un perro se forma continuamente expectativas sobre lo que se le avecina, igual que nosotros.
La capacidad de predicción de los humanos y de otros animales está muy influida por el aprendizaje. Un recién nacido no tiene las expectativas elaboradas de un adulto porque todavía tiene que adquirirlas aprendiendo de la experiencia. De igual forma, si lanzamos una pelota a un cachorro de perro, ni la mirará ni se anticipará como lo hace un perro más experimentado. La predicciones empiezan a mejorar por el aprendizaje inmediatamente después del parto: un recién nacido aprenderá muy pronto a esperar la comida, y le seguirán rápidamente otras expectativas. No obstante, algunos sucesos son más predecibles que otros. Predecimos con facilidad que el sol saldrá mañana o que la primavera llegará en pocos meses, pero estaremos mucho menos seguros de si mañana lloverá a las tres de la tarde o del número ganador de la lotería, conocimientos que nos resultarían muy valiosos, pero que desafían nuestros poderes de predicción. La magia de las sibilas procede no de su capacidad para predecir, que todos la compartimos, sino de tener poderes proféticos que sobrepasan lo que solemos conseguir.
A diferencia de las sibilas, nosotros, al igual que otros animales, adquirimos la capacidad predictiva no con poderes mágicos ni consultando volúmenes proféticos, sino mediante libros neurales escritos por nuestra experiencia. ¿Y cómo se escriben estos libros? En el capítulo anterior, vimos que nuestras respuestas pueden cambiar por la modificación de las neuronas. La sensibilidad al tacto que tiene la babosa de mar puede incrementarse o disminuirse con la modificación de las sinapsis en las primeras experiencias. Se trata de cambios instintivos en nuestras respuestas, muy constreñidas por el pasado evolutivo. Pero, ¿qué hay del aprendizaje de las cosas nuevas? Nuestros ancestros hace 10.000 años no tenían libros, y a los ancestros lobunos de los perros tampoco les tiraban pelotas. Aun así, los humanos y los perros mantienen unas expectativas particulares para cada caso. ¿Cuál es la base neural de este aprendizaje? Al intentar responder a esta pregunta nos introduciremos de lleno en nuestra manera de adquirir el conocimiento acerca del mundo. Tal y como hemos visto en los capítulos anteriores, para abordar las preguntas más complejas nos resultará útil plantearnos primero ejemplos más simples. Un buen punto de partida para los fundamentos neurales del aprendizaje es el perro de Pávlov.
El científico ruso Iván Petróvich Pávlov comenzó sus estudios sobre el aprendizaje en torno a 1900, cuando rondaba los cincuenta años. Por entonces ya había realizado trabajos pioneros sobre el aparato digestivo, durante los cuales había elaborado un procedimiento simple que le permitió medir la cantidad de saliva producida por un perro vivo. Cuando le enseñaba comida al perro, Pávlov podía determinar fácilmente la cantidad de saliva adicional que producía. Observó que se podía desencadenar la salivación del perro con muchos factores, con tal de que estuvieran asociados a la presentación de la comida: «Tan solo con ver el recipiente del cual se le ha dado la comida se consigue evocar un reflejo alimentario completo con todos sus detalles; y, además, la secreción puede estar provocada incluso cuando ve a la persona que trajo el recipiente, o por el sonido de sus pisadas».2
Pávlov decidió estudiar esto sistemáticamente. Eligió un estímulo que normalmente no desencadenaría una mayor salivación, como el sonido de una campana; Pávlov hacía sonar la campana cada vez que iba a dar de comer al perro. Con el tiempo, el perro comenzó a salivar más siempre que se hacía sonar la campana, incluso si no se le daba de comer: su respuesta había quedado condicionada por la campana. Tal condicionamiento pavloviano a menudo se interpreta como una demostración de que un perro aprende a asociar el sonido de la campana con la comida. De hecho, suele hacerse referencia al condicionamiento pavloviano como ejemplo del aprendizaje asociativo. Pero se puede interpretar de otra manera: quizá el perro está aprendiendo a predecir, más que aprendiendo una asociación. Por el sonido de la campana es posible predecir que la comida está de camino, y quizá por eso la campana desencadena mayor salivación. ¿Cuál es la diferencia entre la asociación y la predicción?
Cuando se para la rueda de la ruleta y la bola cae en una casilla, el croupier anuncia el número. Podemos decir que hay una asociación entre el número que anuncia el croupier y el número de la casilla donde cayó la bola. Los dos van juntos. Pero no se nos ocurriría decir que el croupier predice la casilla en la que acabará la bola porque da el resultado después de que la bola se ha detenido. Si el croupier dijese correctamente el número antes de que la bola se parase, diríamos que la había predicho correctamente. Por lo tanto, nuestra idea de lo que es o no una predicción se basa en la secuencia temporal. En cambio, podemos tratar asociaciones sin ninguna referencia al orden temporal. Por ejemplo, podemos observar una asociación entre el anuncio del croupier y la casilla en donde cayó la bola independientemente de si la bola se para antes o después de que el croupier lo anuncie.
Si el perro de Pávlov está aprendiendo una asociación, entonces no debería importar si la campana suena antes o después de que se presente la comida. Sin embargo, resulta que la hay: si la campana suena justo después, en vez de antes, de darle la comida, la campana no llega a desencadenar una mayor salivación que cuando suena sola. De hecho, el sonido de la campana más bien tiende a tener un efecto inhibidor de la salivación. Parece que el valor predictivo de la campana es lo que importa, y no la simple asociación de la campana con la comida. Si la campana suena antes de la comida, significa que la comida está a punto de aparecer y el perro saliva más preparándose para este acontecimiento. Si la campana suena después de que se haya dado la comida, significa que la comida desaparecerá aunque se la esté comiendo, por lo que el perro se prepara para este acontecimiento salivando menos. El perro está aprendiendo predicciones, no simples asociaciones.
La idea de que la respuesta del perro implica una predicción es coherente con otro tipo de experimento, en este caso llevado a cabo por Leon Kamin en Princeton en los años sesenta del siglo XX con ratas, aunque ilustraré los resultados con perros.3 Supongamos que, en vez de un sonido de campana, condicionamos al perro con otro tipo de estímulo, como tocarle la pata. Si siempre se la tocamos antes de darle la comida, el perro finalmente aprende a salivar más después de tocarle la pata, no es más que la respuesta pavloviana tradicional que cabría esperar. Podemos continuar con este condicionamiento hasta que el perro esté completamente entrenado para responder al toque de la pata. ¿Qué ocurre si le aplicamos repetidamente dos estímulos simultáneos, tocarle la pata y sonar la campana, justo antes de darle la comida? Si el perro aprende a asociar independientemente cada señal con la comida, entonces debería aprender a responder a la campana y al contacto, porque ambos están ocurriendo a la vez antes de comer. Pero el perro no aprende a salivar en respuesta únicamente a la campana, aunque todavía salive en respuesta únicamente al contacto. Esto tiene sentido si el perro está aprendiendo según el valor predictivo del estímulo. Si ha aprendido que el toque en la pata significa que la comida está de camino, la campana no añade más información, ya no tiene valor predictivo, por lo que el perro no aprende a conectarla con la comida. De nuevo, lo importante es la secuencia temporal: si en vez de hacer sonar la campana al mismo tiempo que le tocamos la pata, hacemos sonar la campana antes, entonces el perro aprende a salivar en respuesta a la campana, incluso si se le ha entrenado antes tocándole la pata. La campana ahora está proporcionando la información adicional de que es el primer aviso de que la comida está de camino, por lo que el perro aprende esta nueva relación. El condicionamiento pavloviano sirve para la predicción.
Parece que el cerebro del perro hace profecías basadas en su pasado, aprendiendo de experiencias anteriores para anticipar el futuro. ¿De qué clase de mecanismo dependerá este aprendizaje? Mientras Pávlov realizaba sus estudios en Rusia, otros científicos como Santiago Ramón y Cajal en España y Charles Sherrington en Inglaterra investigaban los detalles del funcionamiento de las neuronas.4 Demostraron que una característica clave de las neuronas reside en el modo en el que se activan mutuamente mediante las sinapsis. ¿Qué relación tienen estas investigaciones sobre las neuronas con los resultados de Pávlov? Los primeros intentos de responder esta pregunta los hicieron dos científicos a finales de los años cuarenta del siglo XX: el neurofisiólogo polaco Jerzy Konorski y el psicólogo canadiense Donald Hebb. En su libro Conditioned reflexes and neuron organisation («Reflejos condicionados y organización neuronal», 1948), Konorski demostró que los resultados de Pávlov podrían interpretarse por la intervención de cambios específicos en la formación y en el número de conexiones sinápticas entre las neuronas.5 Donald Hebb llegó de forma independiente a un concepto similar en su libro La organización de la conducta (1949, traducido en 1985).6 A pesar de estos estudios pioneros, quedó poco claro cómo aparecían los cambios sinápticos y cómo podrían conducir a mejorar las predicciones. Tuvieron que transcurrir 40 años más para que se retomara el tema del condicionamiento, cuando se identificaron las neuronas implicadas en el aprendizaje predictivo.
A mediados de los años ochenta del siglo XX, Ranulfo Romo y Wolfram Schultz de la Universidad de Friburgo (Suiza) estaban registrando la señal eléctrica de ciertas neuronas del cerebro de un mono a medida que aprendía tareas.7 Estas neuronas están localizadas en una región conocida como el mesencéfalo y en sus terminaciones sintetizan un neurotransmisor denominado dopamina. Recordemos que los neurotransmisores son sustancias que se liberan desde las terminaciones axónicas y atraviesan el espacio sináptico para influir en la actividad de la siguiente neurona. La activación de las neuronas liberadoras de dopamina que Romo y Schultz estudiaban parecía estar relacionada con las recompensas que recibía el mono. Se conectó una caja a la jaula del mono que a veces contenía una recompensa, por ejemplo un trozo de manzana. El mono no podía ver el contenido de la caja, por lo que en principio desconocía que pudiera contener algo de comida. Pero si el mono metía la mano en la caja, a veces notaba un trozo de manzana y lo recogía. Romo y Schultz encontraron que las neuronas que estaban registrando se activaban con más frecuencia cuando el mono metía la mano en la caja y encontraba el trozo de manzana (figura 53, panel superior). Primero sospecharon que la activación podría estar relacionada con los movimientos del brazo del mono, pero después demostraron que las neuronas no incrementaban su tasa de activación cuando el mono no encontraba un trozo de manzana en la caja. Al parecer, la activación de las neuronas dopaminérgicas estaba relacionada con el contacto de la manzana, y no con los movimientos del brazo.
FIGURA 53. Activación de las neuronas dopaminérgicas antes y después del condicionamiento.
Entonces cambiaron la disposición experimental para condicionar al mono con el sonido de la apertura de una puerta. Ahora la caja siempre contiene la manzana, pero se le ha cerrado el acceso al mono con una pequeña puerta. El mono aprendió pronto que cuando escuchaba el sonido de la puerta abriéndose, podía meter la mano en la caja y coger un trozo de manzana. Romo y Schultz hicieron entonces una observación sobresaliente: las neuronas que habían visto que se activaban cuando tocaba la manzana, ahora se activaban por el sonido de la apertura de la puerta (figura 53, panel inferior). Las neuronas habían reorientado su respuesta con el tiempo: se activaban con la señal predictiva, el sonido de la puerta, en vez de con la propia manzana.
Se entenderá mejor si reformulamos el experimento del mono sobre la base de tres conceptos: recompensas, expectativas y discrepancias. Inicialmente, el mono no tenía expectativas de recompensa (el trozo de manzana) cuando escuchaba el sonido de la puerta. Por consiguiente, cuando se encontraba la puerta abierta y cogía un trozo de manzana había una discrepancia entre lo que el mono esperaba (puerta cerrada y sin recompensa) y lo que encontraba (puerta abierta y recompensa). El efecto del aprendizaje consiste en eliminar esta discrepancia: el sonido de la puerta lleva al mono a esperar una recompensa. Sin embargo, el mono todavía no sabe cuándo sonará la puerta porque no tiene manera de saberlo, así que en este punto todavía cabe un elemento de sorpresa o una discrepancia en las expectativas. La discrepancia se ha desplazado en realidad desde el momento en el que el mono recibe la recompensa hasta un momento anterior, cuando suena la puerta. La actividad neuronal que Romo y Schultz estaban midiendo parecía relacionada con la cronología de las discrepancias, con el momento en el que el mono se sorprende. El problema reside en explicar cómo un desplazamiento cronológico de este tipo puede surgir por las interacciones neurales.
Unos años después, los neurocientíficos computacionales Read Montague, Peter Dayan y Terry Sejnowski, en los Estados Unidos, propusieron una solución ingeniosa que integraba los hallazgos experimentales de Romo y Schultz con una teoría matemática del aprendizaje denominada aprendizaje por diferencias temporales (aprendizaje DT).8 El aprendizaje DT había sido formulado por Richard Sutton y Andrew Barto varios años antes. Merece la pena sumergirse en el mecanismo propuesto por Montague, Dayan y Sejnowski para conocerlo con más detalle porque sirve para resaltar los principios clave del aprendizaje.
En la figura 54 se ilustra una versión simplificada de su esquema, donde se ven dos neuronas que reciben diversos impulsos entrantes. He denominado a la de arriba neurona de expectativas, pero esto no quiere decir que tenga propiedades fisiológicas especiales que le permitan esperar una cosa u otra. Se trata de una neurona como otra cualquiera, con impulsos de entrada y de salida, cuya función en el esquema, como veremos, es la de reflejar las expectativas del mono. La neurona de expectativas recibe información de muchas señales sensoriales (como el sonido de la apertura de la puerta) o estímulos visuales (como un destello). Estas señales están conectadas a la neurona de expectativas mediante sinapsis débiles, que se ilustran con pequeños botones en las terminaciones axónicas. Al principio, estas señales estimulan poco o nada a la neurona de expectativas.
FIGURA 54. Esquema del aprendizaje DT que muestra la fuerza de las conexiones neurales antes del condicionamiento.
La neurona inferior, en gris, se denomina neurona de discrepancias, que de nuevo es una neurona normal cuyo nombre solo refleja su función en el esquema. Esta neurona recibe un impulso estimulador (indicado por un signo positivo) desde una neurona que percibe una recompensa, como cuando el mono toca la manzana. La señal de recompensa está conectada a la neurona de discrepancias con una sinapsis fuerte, por lo que el contacto con la manzana estimula enormemente la activación de la neurona de discrepancias, que también recibe estímulos desde la neurona de expectativas. Esta señal puede ser estimuladora o inhibidora, como se indica mediante los signos positivos y negativos. Que la entrada sea estimuladora o inhibidora depende de si sube o baja la tasa de activación de la neurona de expectativas: si se incrementa, entonces estimula a la neurona de discrepancia; pero si decae, entonces la inhibe. La situación se parece mucho a la que encontramos en la bacteria nadadora Escherichia coli en el capítulo anterior. Recordemos que cambiaba su comportamiento nadador según se incrementara o disminuyera la cantidad de azúcar de su entorno. Lo que importa, como con la concentración de azúcar, es el cambio relativo de la activación de la neurona de expectativas. Un punto clave que debemos recordar es que si va subiendo la activación de la neurona de expectativas, entonces se estimula la neurona de discrepancias, mientras que se inhibe cuando va cayendo.
El elemento final del esquema es que la activación de la neurona de discrepancias altera a su vez las señales que le llegan a la neurona de expectativas. Lo hace de un modo más bien especial: la activación intensa de la neurona de discrepancias tiende a reforzar las sinapsis de las neuronas que han sido activadas justo antes de que se activara la neurona de discrepancias. Si la neurona sensible al sonido de la puerta se ha activado antes de la acción de la neurona de discrepancias, entonces la fuerza de su sinapsis se incrementa ligeramente cuando se activa la neurona de discrepancias. Sin embargo, si la neurona del sonido de la puerta no se hubiera activado antes de la activación de la neurona de discrepancias, entonces no se incrementan sus sinapsis con la neurona de expectativas, que podrían incluso perder fuerza.
Ahora estamos en posición de ver cómo funciona el aprendizaje predictivo. Supongamos que el mono toca la manzana después de escuchar la puerta. Percibir la manzana hace que la neurona de discrepancias se active a una tasa elevada (debido a la fuerza de la sinapsis estimuladora). Cualquier impulso que llegue a la neurona de expectativas que se activó justo antes de esto verá ligeramente reforzada su sinapsis con la neurona de expectativas. Esta situación también vale para la neurona del sonido de la puerta, pero no para la neurona del destello. Incluso aunque las neuronas del sonido de la puerta y del destello consigan enviar impulsos a la neurona de expectativas, solo se refuerza la sinapsis con la neurona del sonido de la puerta porque se activa inmediatamente antes que la neurona de discrepancias (que a su vez fue estimulada por la entrega de la recompensa). El refuerzo de una sinapsis dependerá de si se ha estimulado justo antes de que se reciba la recompensa.
Al haberse activado recientemente, la neurona del sonido de la puerta refuerza con eficacia su propia fuerza con la ayuda de la neurona de discrepancias. Este autorrefuerzo continúa con otras rondas de apertura de puerta y de retirada de comida, lo que conduce a la formación de una sinapsis cada vez más fuerte entre la neurona del sonido de la puerta y la neurona de expectativas, lo que se indica mediante la mayor longitud de la sinapsis en la figura 55. Podríamos esperar que este autorrefuerzo continúe indefinidamente, y que la sinapsis entre ambas neuronas sea cada vez más fuerte. Sin embargo, esto no ocurre porque la neurona del sonido de la puerta finalmente sucumbe ante su propio éxito, como veremos a continuación.
A medida que se incrementa la fuerza de la sinapsis con la neurona del sonido de la puerta, el patrón de activación de la neurona de discrepancias comienza a cambiar de dos maneras. Primero, la neurona de discrepancias comienza a activarse con más intensidad cuando se abre la puerta porque se activa la neurona del sonido de la puerta y estimula a la neurona de expectativas mediante una sinapsis más fuerte. El aumento de la activación de la neurona de expectativas a su vez estimula a la neurona de discrepancias (recordemos que la neurona de expectativas tiene efecto estimulador cuando aumenta su nivel de activación). Por lo tanto, la neurona de discrepancias ahora se activa aún más cuando el mono escucha que se abre la puerta.
En segundo lugar, el patrón de activación de la neurona de discrepancias cambia en el momento de la entrega de la recompensa. Como antes, tocar la manzana estimula la activación de la neurona de discrepancias. Pero a medida que ocurre esto, también hay una caída en el nivel de activación de la neurona de expectativas porque el mono ya no escucha el sonido de la apertura de la puerta. Según la regla descrita antes, esta caída de la activación de la neurona de expectativas conduce a la inhibición de la neurona de discrepancias, que ahora recibe dos impulsos antagonistas: uno estimulador desde la manzana de recompensa, y otro inhibidor por la reducción de la activación de la neurona de expectativas. Este efecto inhibidor de la neurona de expectativas significa que la neurona de discrepancias se activa menos que la primera vez que recibió la recompensa, lo que a su vez significa menos refuerzo de la sinapsis con la neurona del sonido de la puerta, que contrarresta la tendencia de esta neurona a estimularse a sí misma.
FIGURA 55. Esquema de aprendizaje DT que muestra el refuerzo de las conexiones neurales después del condicionamiento. Al compararla con la figura 54, la sinapsis con la neurona del sonido de la puerta es más fuerte, y el movimiento del brazo del mono ahora está acoplado a la activación de la neurona de discrepancias.
Tenemos un sistema autolimitante. Con cada experiencia, la activación de la neurona de expectativas tiende a subir en cuanto el mono escucha la puerta porque se ha estado reforzando la sinapsis. Pero una consecuencia de esta primera subida es la caída posterior de la activación de la neurona de expectativas. Se trata de un ejemplo que ilustra que todo lo que sube tiene que bajar. La caída posterior de la activación de la neurona de expectativas inhibe a la neurona de discrepancias y reduce la intensidad con la que se promueve el refuerzo sináptico. El proceso continúa de este modo hasta que el efecto inhibidor del descenso de la activación de la neurona de expectativas contrarresta exactamente el efecto estimulador de la recompensa. En este momento, ya no sube la activación de la neurona de discrepancias cuando se toca la manzana, por lo que la fuerza sináptica ya no cambia más y el sistema se estabiliza, porque el cambio en la activación de la neurona de expectativas se compensa con la estimulación de la recompensa. El único momento en el que la neurona de discrepancias se activará a un nivel elevado es cuando se dé un incremento de la activación de la neurona de expectativas debido a que el mono escucha el sonido de la puerta.
Este esquema del aprendizaje DT explica cómo puede surgir el desplazamiento temporal de la activación de las neuronas dopaminérgicas estudiadas por Romo y Schultz. Estas neuronas se corresponden con la neurona de discrepancias en nuestro esquema. Inicialmente, la neurona de discrepancias se activa a un nivel elevado cuando se percibe la recompensa, pero después del aprendizaje, la subida de la activación se adelanta al momento en el que el mono escucha el sonido de la apertura de la puerta. Este adelanto es exactamente lo que se observa en las neuronas dopaminérgicas, lo que sugiere que se están comportando como las neuronas de discrepancias de nuestro esquema. La consecuencia es que la liberación de la dopamina desde sus terminaciones debe incrementar la fuerza de las sinapsis de algún modo. No se sabe cómo ocurre esto exactamente: puede ser que la liberación de la dopamina actúe directamente sobre los receptores sinápticos o puede actuar más indirectamente. En cualquier caso, lo que importa es que la activación de estas neuronas conduce de algún modo a una modificación de la fuerza de la sinapsis.
¿Le resulta beneficioso este sistema al mono? Para que el aprendizaje sea útil, tiene que estar relacionado con los actos del mono. Esto se puede conseguir al conectar el impulso saliente de la neurona de discrepancias y los movimientos del brazo del mono, lo que se muestra con la flecha de la figura 55. Inicialmente, los movimientos del brazo del mono no están relacionados con el sonido de la apertura de la puerta, pero después del condicionamiento, el mono mueve su brazo cuando lo escucha. Según el esquema de aprendizaje DT, esto ocurre porque al aumentar la activación de la neurona de discrepancias, se estimulan las acciones que probablemente incrementen la probabilidad de recoger una recompensa. Se trata de un proceso que se puede basar en un refuerzo sináptico parecido al descrito para la neurona de expectativas, con la excepción de que ahora las conexiones neurales serán las responsables de determinadas acciones, en vez de que las inicien las señales externas (en el próximo capítulo retomaremos la manera de reforzar las acciones). El resultado neto es que la estimulación de la neurona de discrepancias mediante el sonido de la puerta estimula el movimiento del brazo del mono para recoger la comida.
Antes de terminar esta explicación del aprendizaje DT, debo aclarar algo que he explicado por encima. He supuesto que la activación de la neurona de expectativas cae al mismo tiempo que se entrega la recompensa. Esto asegura que el efecto inhibidor de la neurona de expectativas contrarresta el efecto estimulador de la recompensa. Pero ¿por qué la activación de la neurona de expectativas debe caer exactamente cuando se entrega la recompensa? Según los partidarios del aprendizaje DT, la razón es que el cerebro posee la clave para discernir entre el momento o la duración de las señales, no solo su intensidad. Por ejemplo, podríamos imaginar que el sonido de la puerta pone en marcha en el cerebro una serie de patrones de activación con distinta duración: algunos duran poco tiempo y otros mucho.9 Sería como si el sonido de la puerta reverberara durante un tiempo en el cerebro y proporcionara un abanico de impulsos entrantes para la neurona de expectativas. Supongamos que pudiéramos conseguir que solo se refuerce la sinapsis de la señal de entrada que dura hasta justo antes de que se entregue la recompensa, por lo que las señales de entrada más cortas o más largas no se verían fortalecidas por la neurona de discrepancias. Este sistema aseguraría que la activación de la neurona de expectativas caerá al mismo tiempo que llega la señal de recompensa, porque solo las señales con esta propiedad se verán fortalecidas.
Los mecanismos temporizadores de este tipo pueden sonar a elucubraciones, pero explican una observación neural clave. Supongamos que después del condicionamiento, al mono se le retira la recompensa. El animal meterá la mano en la caja, pero le disgustará que no haya una manzana. Schultz y colaboradores encontraron que, en esta situación, la tasa de activación de las neuronas dopaminérgicas cae exactamente en el momento en el que el mono suele esperar el contacto con la manzana. En otras palabras, la activación se inhibía justo cuando el mono esperaba recibir la recompensa. Este es el resultado que cabría esperar según el esquema de aprendizaje DT, porque la activación de la neurona de expectativas cae exactamente en este momento y provoca la inhibición de la neurona de discrepancias que ahora no estará compensada por una señal de recompensa (no hay manzana), por lo que la tasa de activación de la neurona de discrepancias cae por debajo de su valor normal. La reducción de la activación de la neurona de discrepancias se corresponde con la decepción del mono, al igual que el incremento de la activación se corresponde con una sorpresa agradable.
El aprendizaje DT proporciona un mecanismo general para el aprendizaje predictivo, en el que interviene la interacción neural entre las expectativas, las recompensas y las discrepancias. El mismo esquema puede explicar el comportamiento del perro de Pávlov: al principio, la comida aparece como caída del cielo, sin que el perro se lo espere. Esta discrepancia entre la expectativa y la recompensa fortalece las conexiones sinápticas de las señales que la preceden, como el sonido de la campana. Gracias a este proceso aumenta la activación de las neuronas de expectativas del perro cuando escucha la campana, lo que conduce a un desplazamiento de la actividad de la neurona de discrepancias desde el momento de entrega de la comida al momento en que suena la campana. La principal diferencia respecto al ejemplo del mono es que esta neurona de discrepancias estimula el incremento de la salivación en vez de los movimientos del brazo. En realidad, el perro de Pávlov es más simple que el caso del mono porque no se tiene que aprender la conexión entre la discrepancia y la acción porque la respuesta de salivación ya estaba instaurada antes del condicionamiento. Los casos como el perro de Pávlov en los que la acción ya existía se denominan condicionamiento clásico. Por el contrario, los casos como el del mono que recoge la manzana, en los que la acción también se tiene que aprender, se denominan condicionamiento operante o instrumental.10 El aprendizaje DT consigue explicar ambas clases de condicionamiento.
El aprendizaje DT también es capaz de explicar por qué el condicionamiento con una señal predictiva, como tocar la pata, bloqueará el condicionamiento posterior con otra señal, como el sonido de la campana. Después de haber aprendido una señal predictiva, como tocar la pata, ya no se producirán más discrepancias en el momento de la entrega de la recompensa (la neurona de discrepancias ya no se estimula en ese momento). Por lo tanto, no habrá ningún refuerzo de las sinapsis con las señales que se produzcan por el toque de la pata. El sistema ya ha aprendido lo que ha de esperar y no fortalece las conexiones con los impulsos que no tienen ningún otro valor predictivo.
Hasta ahora he descrito ejemplos con recompensas como la comida. Pero el mismo esquema se puede aplicar a los castigos, lo opuesto a los premios. Supongamos que después de un destello, el mono recibe una descarga eléctrica en vez de un trozo de manzana si mete la mano en la caja: el mono aprende pronto a no meter la mano en la caja después de un destello de luz. Podemos aplicar el mismo esquema de aprendizaje DT que antes para conseguir este resultado, pero con un tipo diferente de neurona de discrepancias. En vez de recibir impulsos de recompensa, como una manzana, esta neurona de discrepancias recibiría impulsos repelentes como la descarga eléctrica. Otra diferencia es que la acción resultante de la activación de la neurona de discrepancias sería la evasión, no el compromiso. El aprendizaje proseguiría como antes, salvo que se inhibirían las acciones que ocurren inmediatamente antes de la activación de la neurona de discrepancias. Por lo tanto, si hay un destello, el mono aprendería a no meter la mano en la caja. Aunque en principio este esquema debería funcionar, las neuronas que intervienen todavía no se han identificado con claridad. Por lo tanto, conocemos menos detalles neurales del castigo que del aprendizaje con recompensas.11
El aprendizaje DT proporciona hoy en día el mejor modelo para explicar las bases del aprendizaje predictivo mediante las interacciones neurales. Ahora quiero utilizar este ejemplo para fijarme en los principios básicos que intervienen en el aprendizaje. A partir de ahora utilizaré términos que también empleé al describir la evolución y el desarrollo para resaltar los principios fundamentales comunes, al mismo tiempo que reconoceré que estos procesos difieren también en muchos aspectos.
Los cambios principales en la fuerza de la sinapsis no ocurren al mismo tiempo durante el aprendizaje DT, sino que dependen del efecto de la acumulación de muchas experiencias. Estamos tratando con una población de sucesos, con muchos casos de apertura de puertas y entrega de premios. Tal y como ya hemos visto, una población siempre se encontrará en un contexto, al igual que los giros de la ruleta o las moléculas en una taza de té. En el caso del aprendizaje DT, el contexto consiste en el conjunto de conexiones neurales del cerebro y el abanico de experiencias vividas. Cada experiencia por sí sola ocasionaría un único y ligero cambio de la fuerza sináptica, pero un conjunto de experiencias ocasionará un cambio significativo. Si no fuera así (si un único suceso fijara la fuerza sináptica), un animal formaría sus conexiones neurales solo de acuerdo con lo último que hubiera vivido, se recablearía según los sucesos más recientes y borraría cualquier experiencia anterior. Pero la experiencia más reciente no nos da necesariamente el mejor pronóstico de lo que ocurrirá después, igual que ganar una vez a la ruleta no significa que ganaremos la siguiente. Hay algunos casos, en particular cuando recibimos un castigo fuerte, en los que una única experiencia puede bastar para que aprendamos, lo que se expresa con refranes como «gato escaldado del agua fría huye» o «la letra con sangre entra». En nuestro mundo complejo e impredecible suele ser mejor aprender sobre la base de tendencias globales y no tan solo con el pasado más reciente. Cuanto más inseguros estemos de nuestro entorno, bien por la falta de experiencia o por la variabilidad del mismo, más cuesta aprender de esta manera. Esta forma de aprendizaje es precisamente lo que consigue el aprendizaje DT, que ajusta ligeramente la fuerza de las sinapsis con cada acontecimiento, lo que permite aprender de tendencias predictivas en vez de un simple acontecimiento. El aprendizaje DT se construye sobre el principio de la variabilidad de la población.
El aprendizaje DT también depende de la persistencia. El sistema no funcionaría si tras cada modificación de la fuerza de una sinapsis se volviera al estado inicial. Como vimos en el capítulo anterior, los cambios de la fuerza sináptica pueden persistir durante mucho o poco tiempo. La primera secuencia de experiencias durante el aprendizaje podría provocar cambios a corto plazo en el funcionamiento de la sinapsis, haciéndola más o menos eficaz. Estos cambios a corto plazo se acumularían con otras experiencias para dar lugar a cambios anatómicos a más largo plazo, como el número de sinapsis.12 Los cambios sinápticos a más largo plazo consiguen durar muchos años, como se ilustra en la siguiente anécdota de Charles Darwin.
En 1836, justo después de regresar de sus cinco años de travesía a bordo del Beagle, Darwin decidió comprobar la memoria de su perro.13 Se fue al establo en el que estaba alojado el perro y lo llamó. El perro se levantó corriendo y se apresuró, feliz, para dar un paseo con Darwin, con la misma emoción que si su amo hubiese faltado tan solo media hora. El sonido de la voz de Darwin seguía estimulando la respuesta del perro después de cinco años de ausencia. Quizá esta historia también nos dice algo del cerebro de Darwin: había aprendido literatura clásica en el colegio, donde solía memorizar cuarenta o cincuenta líneas de Homero antes de rezar por la mañana en la capilla.14 En la historia clásica de Homero, La Odisea, Ulises regresa a su hogar después de diez años de viaje marítimo. Allí se disfraza de mendigo para impedir que lo reconozcan, pero no consigue engañar a su viejo perro Argos, que instantáneamente levanta las orejas y empieza a menear la cola en cuanto suena la voz de su amo. Darwin pensaba que recitar Homero en el colegio era una total pérdida de tiempo porque olvidaba cada verso al cabo de dos días. Pero quizá el relato de Ulises estableció algunas conexiones neurales a largo plazo en el cerebro de Darwin que le estimularon inconscientemente nada más regresar de su largo viaje marítimo, y eso quizá le condujo a comprobar la memoria de su perro. Darwin y su perro quizá se parecían más incluso de lo que él creía.
La variabilidad de la población y la persistencia son ingredientes clave del aprendizaje: sin variación no habría cambios en la fuerza de las sinapsis, y sin persistencia, cada cambio sináptico se desvanecería en cuanto hubiera acabado de formarse.
El refuerzo también desempeña una función vital en el aprendizaje DT. La activación de la neurona del sonido de la puerta fomenta la fuerza de su propia sinapsis, con la ayuda de la neurona de discrepancias. Tal refuerzo resulta esencial para que funcione el sistema, pues gracias a él, a la hora de estimular la respuesta del mono, la neurona del sonido de la puerta se vuelve más eficaz que otras posibles señales como un destello. De igual forma, con el perro de Pávlov, la activación de una neurona para el sonido de la campana tiende a reforzar sus propias sinapsis. Podemos resumir tal refuerzo con un bucle de realimentación positiva tal y como se muestra a la izquierda de la figura 56, donde la activación de una neurona favorece su propio refuerzo sináptico.
Si se las tuviera que arreglar solo, el refuerzo haría que determinadas sinapsis fueran cada vez más fuertes a medida que se acumularan las experiencias. El sistema intensificaría por sí mismo cada vez más la actividad sináptica, lo que llevaría al cerebro finalmente a un estado de frenesí. Esto no ocurre porque el autorrefuerzo acaba siendo víctima de su éxito: a medida que la sinapsis con la neurona del sonido de la puerta incrementa su fuerza, la activación de la neurona de expectativas también aumenta al escuchar el sonido de la puerta. En consecuencia, la neurona de expectativas se activa mucho menos cuando se entrega la recompensa, lo que va extinguiendo la actividad de la neurona discrepante y, por lo tanto, cualquier otro refuerzo se ve reducido. El refuerzo ha conducido a su propia inhibición o limitación, como se muestra mediante el bucle negativo a la derecha de la figura 56. Se trata de nuestro conocido doble bucle de realimentación en el que el refuerzo promueve la competencia, y en el que la competencia afecta a la acción inhibidora de las neuronas. El efecto global de esta combinación de bucles negativos y positivos es que las expectativas se pueden hacer coincidir con los niveles de recompensa o castigo.
FIGURA 56. Interacción entre el refuerzo (bucle positivo) y la competencia (bucle negativo) en el aprendizaje.
Hemos llegado a los mismos principios fundamentales de la evolución y el desarrollo. En el centro del aprendizaje tenemos un doble bucle de realimentación de refuerzo y competencia, impulsado por un equilibrio entre variabilidad y persistencia. La diferencia es que, en este caso, estamos tratando con una población de experiencias e interacciones neurales en vez de con una población de individuos, como en la evolución, o una población de moléculas y células en desarrollo. Los principios son parecidos, pero la apariencia es diferente.
Por supuesto, hay muchas diferencias entre la evolución, el desarrollo y el aprendizaje. Las diferentes experiencias no son lo mismo que las variaciones genéticas en una población ni las colisiones entre moléculas, y el refuerzo de las sinapsis es muy diferente del éxito reproductor. A pesar de las cuantiosas diferencias, hay no obstante algunas similitudes de forma a un nivel superior, a saber, un conjunto parecido de bucles de realimentación e ingredientes básicos.
No es una casualidad que hayamos llegado a algunos principios comunes. Después de todo, la estrategia que estamos siguiendo en este libro ha consistido en fijarnos en lo que podrían compartir las diferentes transformaciones. Así pues, el objetivo de este ejercicio no ha sido buscar las similitudes porque nos gusten, sino para ayudarnos a comprender la esencia de las transformaciones de los seres vivos. Las explicaciones tradicionales del aprendizaje DT no lo presentan como un doble bucle de realimentación entre el refuerzo y la competencia, impulsado por un equilibrio de variabilidad y persistencia. Pero viéndolo desde esta perspectiva, apreciamos con más claridad tanto la lógica fundamental del aprendizaje DT como su relación con otros procesos.
He presentado el aprendizaje DT como ejemplo para ilustrar que los principios comunes también valen para un determinado mecanismo de aprendizaje. Pero se podría decir lo mismo de la mayoría de los mecanismos que se han propuesto para el aprendizaje.15 En un entorno variable e impreciso necesitamos aprender las tendencias de una población de sucesos y no de ejemplos únicos. Para aprender a obtener efectos duraderos, tiene que haber cierta forma de persistencia. Para que algunas conexiones neurales se amplifiquen a sí mismas más que a otras, tiene que haber refuerzo. Y el refuerzo debe autolimitarse mediante la competencia para hacer coincidir nuestras experiencias y lo que se aprende. Los detalles pueden variar de un mecanismo de aprendizaje a otro, pero siempre estarán ahí los mismos principios fundamentales.
Para aprender se necesita más de una neurona. En el caso del aprendizaje DT existen interacciones entre las neuronas de expectativas y de discrepancias, así como entre las neuronas que perciben estímulos como el contacto, la luz y el sonido, y las neuronas que intervienen en las acciones como los movimientos del brazo o la salivación. Estas neuronas también pueden ayudar a las acciones de las otras. El refuerzo de la sinapsis entre la neurona del sonido de la puerta y la neurona de expectativas depende no solo de la activación de la neurona del sonido de la puerta, sino también del ritmo al que se activa la neurona de discrepancias. Para el refuerzo sináptico se necesita la concomitancia de ambas activaciones, de manera que los impulsos que salgan de las neuronas del sonido de la puerta y de discrepancias deben converger sobre la neurona de expectativas. Tal y como hemos visto antes, la cooperación también depende de la proximidad física, pues habrán de reunirse determinadas terminaciones neurales y dendritas. Sin esta clase de proximidad, cada neurona funcionaría de forma independiente y sería imposible aprender nada. El principio de cooperación es otro ingrediente clave del aprendizaje.
La reunión de varios componentes abre las puertas a numerosas combinaciones. El cerebro humano contiene aproximadamente 100.000 millones de neuronas, cada una de las cuales puede tener miles de sinapsis, por lo que el número total de conexiones sinápticas es unas mil veces mayor: cien billones. Esto abre un enorme espacio de posibilidades neurales. Ya nos hemos encontrado grandes espacios: al describir la evolución nos topamos con el espacio genético, o sea, el abanico de secuencias de ADN posibles; y para el desarrollo nos encontramos con el espacio del desarrollo, el abanico de estados celulares posibles y su organización en un embrión. Todos ellos eran hiperespacios inmensos con numerosas dimensiones. De igual forma, ahora tenemos espacio neural, el enorme conjunto de conexiones posibles y de estados de activación de las neuronas del cerebro. Se trata del principio de la riqueza combinatoria aplicado a las conexiones neurales.
Anteriormente hemos pensado en la evolución como poblaciones que viajaban por el espacio genético, y en el desarrollo como un embrión que viajaba por el espacio del desarrollo. De igual forma podríamos pensar que el aprendizaje es un cerebro que viaja por el espacio neural. Cada uno hemos nacido con un cerebro muy estructurado, que corresponde a una posición particular de este espacio neural imaginario. Esta posición es ligeramente diferente para cada uno de nosotros, en buena parte debido a las diferencias en la composición genética, que influyen en el desarrollo del cerebro desde el útero. Después del parto, comenzamos a interaccionar con fuerza con nuestro entorno, de manera que cada interacción desplaza nuestra posición en el espacio neural y nos lleva a emprender un periplo neural muy intrincado. El aprendizaje es en buena parte responsable de nuestro periplo de desplazamientos al cambiar la fuerza y el número de las conexiones neurales. Los ejemplos del perro de Pávlov y del mono que recoge su recompensa ilustran la manera en que las conexiones consiguen cambiar gracias a unas pocas interacciones entre las neuronas. Pero la misma clase de cambios ocurrirán en paralelo en numerosas entradas, salidas y conexiones del cerebro, lo que nos guiará por nuestro elaborado periplo neural.
Una de las principales consecuencias de este periplo neural es que mejora nuestra capacidad para predecir lo que es probable que suceda. Continuamente modificamos nuestras expectativas sobre la base de la historia de nuestras experiencias, gracias a lo cual somos capaces de afrontar mejor nuestro entorno. Pero ¿qué nos mantiene en movimiento por el espacio neural? ¿Qué nos proporciona la fuerza impulsora continua para el aprendizaje?
Una de las características clave del aprendizaje DT es que no elimina las discrepancias, simplemente las desplaza. Para el experimento del mono, el resultado global es que el sonido de la puerta, y no el tocar la manzana, viene a estimular la neurona de discrepancias, por lo que la discrepancia se desplaza a un momento anterior. Mientras que, antes, el mono se excitaba al tocar la manzana, ahora se excita al escuchar el sonido de la puerta. Según los defensores del aprendizaje DT, esto no es más que una consecuencia de que la activación de la neurona de discrepancias excita o da placer al mono. De hecho, el neurotransmisor dopamina liberado por la neurona de discrepancias (como estudiaron Romo y Schultz) se piensa que desempeña una función importante en la toxicomanía. Las drogas como la cocaína y las anfetaminas se cree que ejercen su efecto al potenciar la acción de la dopamina. Inicialmente, tocar la manzana estimulaba la neurona de discrepancias y la liberación de dopamina, con lo que se excitaba el mono. Después del aprendizaje, el sonido de la puerta se comporta igual que la manzana al principio: estimula la neurona de discrepancias y la liberación de dopamina. Desde esta perspectiva neural, el sonido de la puerta se ha convertido en un sustituto de la recompensa, al estimular la neurona de discrepancias y la liberación de dopamina igual que hacía la manzana. Si se produce un nuevo estímulo, como un destello luminoso, antes del sonido de la puerta, entonces el mono trataría esta situación como si el destello sirviera de pronóstico de la recompensa. Pero en este caso, la «recompensa» no es el contacto con la manzana, sino su sustituto: el sonido de la puerta. Si el mono experimenta muchas veces el destello antes del sonido de la puerta, el aprendizaje DT garantiza que la neurona de discrepancias empieza a activarse incluso antes, en el momento del destello. Estamos construyendo una expectativa sobre otra. Al haber aprendido a esperar la recompensa de la manzana sobre la base del sonido de la puerta, el sistema neural automáticamente aprende a responder a factores que le permitirían predecir el sonido de la puerta. El impulso para aprender no se detiene, sino que ha cambiado a otro estímulo.
La capacidad de aprender para crear así sustitutos de recompensas está tan extendida que puede ser difícil identificar lo que constituye una recompensa instintiva frente a una aprendida. En muchos experimentos de Pávlov, el olor o la visión de la comida se utilizaron para condicionar otras respuestas. Podríamos pensar que los perros tienen una respuesta de salivación instintiva ante la presencia de la carne y aprenden las señales que actúan como pronóstico de esta recompensa, como el sonido de la campana. Pero la respuesta a la carne resulta que no es instintiva, sino el resultado del condicionamiento.16 Si un perro recién nacido se alimenta durante bastante tiempo únicamente con leche, entonces no saliva la primera vez que huele o ve la carne, un hecho que solo comenzará a evocar la reacción de salivación después de que el perro se haya alimentado con carne unas cuantas veces. Ahora el olor y la visión de la carne predicen la recompensa igual que una comida satisfactoria, y comienzan a convertirse en recompensas por su propio derecho. Lo que normalmente pensamos que es una reacción instintiva o no aprendida, como la salivación en respuesta a la carne, realmente surge a través del condicionamiento, pero esto no significa que el perro nazca sin ninguna respuesta instintiva. Los modos innatos de responder a los estímulos que actúan como premios o castigos están determinados por las conexiones neurales que se establecen durante el desarrollo del embrión de perro. Pero en cuanto nace y queda expuesto al entorno, comienza a construir sobre estas reacciones a través del aprendizaje, y establece otros conjuntos de estímulos que actúan como premios o castigos.
El fenómeno de que una respuesta aprendida constituya el fundamento para otra se denomina condicionamiento secundario, y surge de forma natural por el aprendizaje DT porque este mecanismo funciona de manera relacional. A medida que aparecen discrepancias, las expectativas cambian y desplazan a las discrepancias con la introducción de sustitutos de las recompensas para la siguiente ronda de aprendizaje.
Los humanos, con sus cerebros elaborados, son expertos en este juego de ajuste de expectativas y recompensas. A menudo consideramos que el dinero es una recompensa, por lo que trabajamos para que nos paguen a final de mes. Pero el dinero solo tiene valor porque nos permite comprar cosas como la comida u otros bienes. Podemos, por ejemplo, comprar una manzana en una tienda, y seguramente no nos la comeremos inmediatamente, sino que retrasamos aún más la recompensa consumiéndola más tarde. Cada una de estas recompensas (dinero, comprar comida y comer) está conectada a determinadas expectativas, de las que somos conscientes gracias a las discrepancias. Si nos pagan menos de lo que esperamos, notamos la discrepancia y quizá nos quejemos al empresario. O si entramos en una tienda esperando comprar una manzana, pero encontramos que su precio ha subido de repente, notamos el encarecimiento. Y si llegamos a casa y encontramos las manzanas más agrias de lo esperado, notamos otra discrepancia. Si todo va viento en popa y se satisfacen nuestras expectativas, entonces apenas reflexionamos sobre estos acontecimientos. El mundo se nos manifiesta gracias a las discrepancias.17
Estas discrepancias están relacionadas con la predicción de consecuencias globales en el futuro. Probablemente nos sentiremos más decepcionados si nos recortan el salario que si sube el precio de las manzanas: una pérdida de ingresos probablemente nos resulte más adversa que el encarecimiento de unas pocas manzanas. Las discrepancias se miden frente a la suma de recompensas futuras: un cambio de salario se pondera frente a todos los bienes que podríamos comprar con esa cantidad de dinero, no con una determinada compra. Esta capacidad de aprendizaje respecto a la suma de las recompensas futuras constituye también un resultado natural de aprendizaje DT y es reflejo del modo relacional con el que trabaja. Las discrepancias en cualquier momento se relacionan con los cambios de expectativas y recompensas que las seguirán, lo que permite que la suma de los sucesos futuros influya en el aprendizaje.
El aprendizaje implica responder continuamente a las discrepancias y reajustar las expectativas. Si nos suben el sueldo, inicialmente nos sentimos positivos porque nuestra recompensa excede a las expectativas. Pero pronto aprendemos a esperar este nuevo salario y nos sentiríamos decepcionados si volviera a su nivel anterior. Lo mismo ocurre con los cambios de precio, o con la calidad de las manzanas que compramos. Se trata de sucesos quizá más sofisticados que la salivación del perro de Pávlov, o que el dinero alcance para comprar comida, pero los fundamentos neurales son los mismos: aprendemos de las discrepancias y reajustamos nuestras expectativas en consonancia, con lo que desplazamos las discrepancias durante dicho proceso.
Lo que mantiene nuestro periplo neural en constante movimiento es este aspecto relacional del aprendizaje que induce constantemente el desplazamiento de las discrepancias. Si pudiéramos eliminar de algún modo todas las discrepancias, entonces el aprendizaje se detendría completamente. Supongamos que pudiéramos ver perfectamente en el futuro y anticiparnos exactamente a lo que va a ocurrir. Ya no tendríamos ninguna sorpresa ni discrepancia de la que preocuparnos, con lo que no habría nada que aprender. Esto podría sonar a encontrarse en un estado ideal. Sin embargo, dado el modo en el que trabaja nuestro cerebro, nos entumecería la mente: sin nada que nos sorprenda, no habría nada que atrajera nuestra atención, ninguna discrepancia para ejercitar nuestra mente. Un conocimiento perfecto del futuro actuaría como un anestésico mental.
En la práctica, el riesgo de alcanzar tal omnisciencia es escaso porque, a pesar de que nuestro cerebro sea complejo y rico, el mundo que nos rodea es todavía más rico. Solo podemos aspirar a capturar una mínima fracción de la complejidad de nuestro entorno, por lo que siempre habrá discrepancias y problemas con los que tratar, y por eso encuentran trabajo las sibilas, los profetas y las pitonisas. El aprendizaje nunca eliminará por completo los desafíos, solo introduce otros nuevos.
Las discrepancias nos resultan tan importantes que incluso las creamos para entretenernos. Las películas o los libros suelen terminar cuando todo el mundo es feliz, porque como no quedan discrepancias, ya no hay nada que nos enganche. Es una lástima, porque después de haber experimentado un episodio dramático, podríamos querer saborear la felicidad del final. Pero no queda nada que siga reteniendo nuestra atención una vez que todas las discrepancias de la narración se han resuelto, por lo que los finales felices tienden a ser mucho más cortos que la historia que los precede. Tolstói nos planteó lo mismo al comienzo de su libro Anna Karenina: «Todas las familias felices se asemejan; cada familia infeliz es infeliz a su modo». La discordia atrae nuestro interés.
Lo mismo ocurre con la enseñanza: para que un alumno aprenda una nueva idea, debe haber una discrepancia a la que aferrarse. Si un alumno siente que ya lo sabe o no ve que haya ningún problema al que enfrentarse, entonces aprenderá poco. Un buen profesor tiene que ser capaz de estimular las discrepancias del alumno planteándole un problema o pregunta que le excite o que le enganche. Una vez que haya aprendido a resolver dicha discrepancia, la siguiente etapa de aprendizaje consistirá en introducir una nueva discrepancia, otro problema que resolver.
Cada uno de nosotros va siguiendo un periplo neural concreto desde el mismo momento del nacimiento. El cerebro de un recién nacido ya lleva una serie de expectativas implantadas en sus conexiones e interacciones neurales. También tiene un conjunto de valores neurales, modos de responder a los estímulos que actúan como premios o castigos, que son el reflejo de su posición de partida en el espacio neural, posición que depende del modo intrincado en el que creció y se desarrolló el tejido neural del embrión, y del modo en el que se formó el cerebro con su compleja estructura. A medida que los recién nacidos comienzan a experimentar el mundo, se topan con las discrepancias y estas conducen a un desplazamiento de las expectativas, que los arrastran a nuevas regiones del espacio neural. Esto a su vez cambia el contexto neural e introduce nuevas discrepancias y nuevos valores conectados con los anteriores. Por lo tanto, el proceso continúa gracias a que el propio periplo neural resulta autoestimulador. El periplo neural para cada persona es único como resultado de que cada una empezó en una posición diferente del espacio neural y de que nuestras propias experiencias también difieren. No obstante, el periplo está impulsado por el mismo conjunto de procesos repetitivos que en el principio de la recurrencia, pero ahora sobre el dominio del aprendizaje. En la evolución, la recurrencia surge porque la selección natural funciona de manera relacional. A medida que las adaptaciones se diseminan y las comparte la población, todos los individuos son capaces de funcionar mejor, y esto conduce a la competencia por adaptaciones cada vez más eficaces. En el desarrollo, la recurrencia implica que los patrones de la actividad génica de un embrión en crecimiento vayan cambiando continuamente. A medida que se modifica un patrón, desplaza el contexto molecular y celular, lo que conduce a otro conjunto de activaciones génicas y transformaciones. En el aprendizaje, la recurrencia surge de otra manera diferente: a medida que se resuelven algunas discrepancias neurales, se establecen otras que entonces conducen a nuevas rondas de aprendizaje. En todos los casos, el principio de la recurrencia es lo que mantiene el periplo en marcha.
Al igual que la evolución y el desarrollo, el aprendizaje se fundamenta en un conjunto de principios comunes que interaccionan entre sí, aunque ahora se hayan disfrazado de neuronas. El núcleo del aprendizaje implica un bucle doble de realimentación en el que la activación neural se refuerza a sí misma, además de acarrear sus propios límites debido a la competencia. Estos bucles están siendo alimentados por la variación de la tasa de activación provocada por un conjunto de experiencias, lo que conduce a la persistencia de los cambios de fuerza y del número de las conexiones sinápticas. Esto sucede gracias a las interacciones cooperativas entre muchas neuronas que crean colectivamente un enorme espacio de combinaciones posibles. Cada etapa del aprendizaje conduce a un desplazamiento por el espacio neural, con la construcción recurrente sobre el contexto neural ya existente, con lo que se modifica el cerebro y se desplaza el contexto. El mismo conjunto de principios e interacciones interviene en el núcleo del aprendizaje, como en la evolución y en el desarrollo. El aprendizaje es nuestra tercera manifestación de la receta creativa para la vida. Pero en vez de impulsar los organismos por el espacio genético o del desarrollo, en este caso, la receta acompaña a los organismos por un periplo a través del espacio neural.