Ho avuto una delle esperienze più gratificanti della mia carriera, un’esperienza da «eureka», all’epoca in cui insegnavo agli istruttori di volo dell’aviazione israeliana il tipo di psicologia che rende l’addestramento più efficace. Parlai loro di un principio importante dell’insegnamento di un mestiere: le ricompense per avere migliorato il rendimento sono più efficaci delle punizioni per avere commesso un errore. Questo principio è corroborato da molte prove provenienti dalle ricerche su colombi, ratti, esseri umani e altri animali.

Quando ebbi terminato il mio discorso accorato, uno degli istruttori più esperti del gruppo alzò la mano e fece un breve intervento. Cominciò con il riconoscere che il fatto che le ricompense migliorassero il rendimento poteva essere vero per gli uccelli, ma negò fosse ottimale per gli allievi piloti. Ecco cosa disse: «In molte occasioni ho lodato allievi piloti per la perfetta esecuzione di alcune manovre acrobatiche. La volta successiva che hanno provato a eseguire la stessa manovra, di solito l’hanno eseguita peggio. Quando invece, come ho fatto spesso, ho urlato negli auricolari degli allievi che avevano effettuato male una manovra, in genere la volta successiva l’hanno effettuata meglio. Perciò la prego di non dirci che le ricompense funzionano e le punizioni no, perché è vero il contrario».

Fu un gioioso momento di illuminazione, perché vidi all’improvviso in una nuova luce un principio statistico che andavo insegnando da anni. L’istruttore aveva ragione, ma nel contempo aveva torto marcio! La sua osservazione era astuta e corretta: le occasioni in cui aveva lodato una manovra tendevano a essere seguite da performance deludenti, mentre in genere le punizioni erano seguite da un miglioramento. Tuttavia l’inferenza che aveva tratto riguardo all’efficacia della ricompensa e della punizione era completamente sbagliata. Quella che aveva osservato è la cosiddetta «regressione verso la media», che in quel caso era dovuta a fluttuazioni casuali della qualità della performance. Egli soleva lodare un allievo pilota solo quando la sua performance era molto superiore alla media, ma con tutta probabilità l’allievo aveva avuto solo fortuna nella sua acrobazia e quindi in seguito mostrava la tendenza a peggiorare indipendentemente dal fatto che fosse stato lodato. Analogamente, l’istruttore urlava negli auricolari rimproveri solo quando l’allievo pilota aveva una performance particolarmente deludente, e quindi l’allievo in seguito mostrava la tendenza a migliorare indipendentemente dai rimproveri. L’istruttore aveva dato un’interpretazione causale delle inevitabili fluttuazioni di un processo casuale.

Alla sfida dovevo dare una risposta, ma una lezione di algebra della predizione non sarebbe stata accolta con molto entusiasmo. Usai invece un gessetto per segnare un bersaglio sul pavimento. Chiesi a ciascun ufficiale presente nella stanza di voltare le spalle al bersaglio e, senza guardare, lanciare una dietro l’altra due monetine in direzione del bersaglio stesso. Misurammo a quale distanza dal bersaglio le monete fossero arrivate e scrivemmo sulla lavagna i due risultati riportati da ciascun concorrente. Poi riscrivemmo i risultati in ordine di miglioramento/peggioramento rispetto al primo tiro. Era evidente che quasi tutti (ma non tutti) quelli che avevano registrato il risultato migliore la prima volta erano peggiorati la seconda, e quelli che avevano registrato risultati mediocri la prima in genere erano migliorati la seconda. Dissi agli istruttori che quello che vedevano sulla lavagna coincideva con quello che avevamo udito a proposito del rendimento dei piloti acrobatici nelle manovre succedutesi nel tempo: una cattiva performance era generalmente seguita da un miglioramento e una buona performance era generalmente seguita da un peggioramento, senza alcun contributo da parte degli elogi o dei rimproveri.

Quel giorno scoprii che gli istruttori di volo erano intrappolati in una sfortunata contingenza: poiché punivano gli allievi piloti quando la performance era scarsa, erano perlopiù compensati da un successivo miglioramento, ma la punizione era in realtà inefficace. Inoltre, non erano certo soli nel loro travaglio. Mi ero imbattuto in un fatto importante della condizione umana: il feedback a cui la vita ci espone è perverso. Poiché tendiamo a essere buoni con gli altri quando ci sono simpatici e cattivi quando ci sono antipatici, siamo statisticamente puniti per il fatto di essere buoni e ricompensati per il fatto di essere cattivi.

Talento e fortuna

Qualche anno fa John Brockman, che dirige la rivista on line «Edge», chiese a diversi scienziati quale fosse la loro «equazione preferita». Io risposi così:

successo = talento + fortuna

grande successo = un po’ più di talento + un sacco di fortuna

L’idea poco sorprendente che la fortuna spesso contribuisca al successo ha conseguenze sorprendenti quando la applichiamo ai primi due giorni di un torneo di golf di alto livello. Per amor di semplicità, assumiamo che entrambi i giorni lo score medio dei giocatori sia stato a par 72. Concentriamo l’attenzione su un giocatore che ha registrato ottimi risultati il primo giorno, chiudendo con uno score di 66. Che cosa possiamo apprendere da questo eccellente risultato? Un’inferenza immediata è che tale golfista ha più talento del giocatore medio del torneo. La formula del successo lascia pensare che sia altrettanto giustificata un’altra inferenza: il golfista, che è stato così bravo il primo giorno, probabilmente quel giorno ha goduto di una fortuna superiore alla media. Se si accetta l’idea che sia il talento sia la fortuna contribuiscano al successo, concludere che il golfista che ha registrato uno score di 66 è stato fortunato è giustificato quanto concludere che ha talento.

Analogamente, se si concentra l’attenzione su un giocatore che quel giorno ha registrato uno score di 5 sopra il par, si avrà ragione di inferire sia che è piuttosto scarso sia che ha avuto una giornata sfortunata. Naturalmente, sappiamo che né l’una né l’altra inferenza sono sicure. È perfettamente possibile che il golfista che ha registrato uno score di 77 abbia in realtà molto talento, ma abbia avuto una giornata davvero terribile. Per quanto incerte siano, le seguenti inferenze tratte dal punteggio del primo giorno sono plausibili e risulteranno più spesso corrette che errate.

score sopra la media il giorno 1 = talento superiore alla media +
  fortuna il giorno 1
score sotto la media il giorno 1 = talento inferiore alla media +
  sfortuna il giorno 1

Ora supponiamo di conoscere lo score di un golfista il primo giorno e che ci chiedano di predire il suo score il secondo. Immaginiamo che egli conservi lo stesso grado di talento il secondo giorno, sicché la nostra migliore stima sarà «sopra la media» per il primo golfista e «sotto la media» per il secondo. La fortuna, ovviamente, è un altro discorso. Poiché non abbiamo modo di prevederla, il secondo (o qualsiasi) giorno la nostra migliore stima deve per forza essere media, né buona né cattiva. Ciò significa che, in mancanza di qualsiasi altra informazione, la nostra migliore stima riguardo al punteggio dei giocatori il secondo giorno non dovrebbe essere una ripetizione della performance del primo. Al massimo potremo dire:

• Il golfista che è andato bene il giorno 1 probabilmente andrà bene anche il giorno 2, ma meno, perché l’insolita fortuna di cui ha forse goduto il giorno 1 difficilmente si ripeterà.

• Il golfista che è andato male il giorno 1 sarà probabilmente sotto la media anche il giorno 2, ma migliorerà, perché il probabile colpo di sfortuna che ha avuto difficilmente si ripeterà.

Ci aspettiamo anche che la differenza tra i due golfisti diminuisca il secondo giorno, per quanto la nostra migliore stima sia che il primo registri sempre un punteggio superiore al secondo.

I miei studenti erano sempre stupiti di sentire che la migliore performance prevista per il secondo giorno era più moderata, più vicina alla media di quanto non lo fossero le prove su cui si basava (lo score del primo giorno). È per questo che il modello è chiamato «regressione verso la media». Più è estremo il punteggio originale, più regressione ci aspettiamo, perché un punteggio eccezionalmente buono fa pensare a una giornata molto fortunata. La predizione regressiva è ragionevole, ma la sua precisione non è garantita. Alcuni dei golfisti che hanno registrato uno score di 66 il primo giorno avranno fatto ancora meglio il secondo, se la loro fortuna è aumentata. La maggior parte avrà fatto peggio, perché la loro fortuna non sarà più stata superiore alla media.

Ora proviamo a invertire la freccia del tempo. Disponiamo i golfisti secondo l’ordine della prestazione registrata il secondo giorno e guardiamo la loro prestazione del primo giorno. Scopriremo lo stesso esatto modello di regressione verso la media. I giocatori che hanno registrato uno score migliore il secondo giorno avranno avuto probabilmente fortuna quel giorno, e l’ipotesi più credibile è che siano stati meno fortunati e abbiano giocato meno bene il primo. Il fatto che si osservi la regressione quando si predice un evento precedente in base a un evento successivo dovrebbe contribuire a convincerci che il fenomeno non ha una spiegazione causale.

Gli effetti della regressione sono ubiqui e altrettanto lo sono le storie causali fuorvianti che dovrebbero spiegarli. Un noto esempio è rappresentato dalla «iella di “Sports Illustrated”», la leggenda metropolitana secondo la quale un atleta la cui foto compare sulla copertina di quella rivista sarebbe destinato ad avere una performance disastrosa la stagione successiva. Spesso, come spiegazione, si dice che la causa della iella sarebbero l’eccessiva fiducia in sé e l’ansia di soddisfare grandi aspettative. Ma c’è una spiegazione più semplice del «fenomeno»: un atleta che finisce sulla copertina di «Sports Illustrated» ha sicuramente avuto una prestazione eccezionale la stagione precedente, forse aiutato da una spintarella della fortuna; e, si sa, la fortuna è volubile.

All’epoca in cui Amos e io scrivemmo un articolo sulla predizione intuitiva, mi capitò di guardare il salto con gli sci maschile alle Olimpiadi invernali. Ciascun atleta deve fare due salti e i risultati si combinano a formare il punteggio finale. Mi stupì molto sentire i commenti del telecronista mentre i campioni si preparavano al secondo salto: «Il campione della Norvegia ha fatto uno strepitoso primo salto e quindi al secondo sarà teso, penserà solo a proteggere il suo vantaggio e probabilmente farà peggio», oppure: «Il campione della Svezia ha fatto un primo salto brutto e ora, sapendo di non avere niente da perdere, sarà rilassato, il che dovrebbe aiutarlo a fare meglio». Il telecronista aveva chiaramente notato la regressione verso la media e aveva inventato una storia causale della quale non c’erano prove. La storia in sé poteva anche essere vera. Forse, se avessimo tastato il polso agli atleti prima di ciascun salto, avremmo scoperto che erano davvero rilassati dopo un primo salto andato male, o forse no. Il principio da ricordare è che non occorre una spiegazione causale per la differenza tra il primo e il secondo salto: essa è una conseguenza matematicamente inevitabile del fatto che la fortuna ha avuto un ruolo nel risultato del primo salto. Non è una storia molto soddisfacente – preferiremmo tutti una spiegazione causale –, ma è l’unica che c’è.

Capire la regressione

Che passi inosservato o sia spiegato male, il fenomeno della regressione è strano per la mente umana. È anzi così strano che fu riconosciuto e compreso per la prima volta duecento anni dopo la teoria della gravitazione universale e il calcolo differenziale. Inoltre, occorse una delle teste più brillanti della Gran Bretagna dell’Ottocento per capirlo, e fu un parto travagliato.

A scoprire e battezzare la «regressione verso la media» fu, alla fine del XIX secolo, Sir Francis Galton, il famoso erudito che era cugino di Charles Darwin. Si coglie il brivido che gli diede la scoperta in un articolo da lui pubblicato nel 1886 con il titolo Regression towards Mediocrity in Hereditary Stature (Regressione verso la mediocrità nella statura ereditaria), dove riporta le dimensioni di varie generazioni di semi e confronta la statura di vari bambini con la statura dei loro genitori. Scriveva a proposito dei suoi studi sui semi:

Hanno dato risultati che paiono assai degni di nota e li ho usati come fulcro di una conferenza tenuta alla Royal Institution il 9 febbraio 1877. Risultava da questi esperimenti che i semi figli non tendevano ad avere dimensioni simili a quelle dei genitori, ma più mediocri, ovvero tendevano a essere più piccoli dei genitori se i genitori erano grandi, e più grandi dei genitori se questi erano molto piccoli … Gli esperimenti hanno dimostrato inoltre che la regressione filiale media verso la mediocrità era direttamente proporzionale alla deviazione parentale da essa.

Galton ovviamente si aspettava che il pubblico colto della Royal Institution, il più antico istituto di ricerca indipendente del Regno Unito, fosse altrettanto stupito di lui di quelle osservazioni «degne di nota». A essere degno di nota, in realtà, è il fatto che si meravigliasse tanto di una regolarità statistica non meno comune dell’aria che respiriamo. Gli effetti della regressione si rinvengono ovunque guardiamo, ma noi non li riconosciamo per quello che sono. Si nascondono in piena vista. Partendo dalla scoperta della regressione della grandezza dei semi figli e della statura dei bambini, Galton impiegò parecchi anni per capire un concetto più ampio, ossia che la regressione si presenta inevitabilmente quando la correlazione tra due misure è imperfetta, ed ebbe bisogno dell’aiuto dei più brillanti statistici dell’epoca per giungere finalmente a quella conclusione.1

Uno dei problemi che dovette risolvere fu misurare la regressione tra variabili che vengono misurate con scale diverse, come il peso corporeo e l’abilità nel suonare il piano. Tale operazione è effettuata usando la popolazione come standard di riferimento. Supponiamo che siano stati misurati il peso corporeo e l’abilità nel suonare il piano di 100 bambini di tutte le classi di una scuola elementare, e che i bambini siano stati classificati in ordine decrescente per ciascuna misura. Se Jane si classifica terza nel suonare il piano e ventisettesima nel peso corporeo, è appropriato dire che è più brava a suonare il piano che alta di statura. Formuliamo alcuni assunti per semplificare le cose.

A qualsiasi età:

• L’abilità nel suonare il piano dipende solo dalle ore quotidiane di esercizio.

• Il peso corporeo dipende solo dal consumo di gelati.

• Il consumo di gelati e le ore quotidiane di esercizio al piano non sono correlati.

Ora, usando i ranghi (o i «punti standard»2 che preferiscono gli statistici), possiamo scrivere alcune equazioni:

peso corporeo = età + consumo di gelato

abilità nel suonare il piano = età + ore quotidiane di esercizio

Puoi constatare che vi è regressione verso la media quando prevediamo l’abilità nel suonare il piano in base al peso corporeo o viceversa. Se l’unica cosa che sappiamo di Tom è che si classifica dodicesimo nel peso corporeo (molto sopra la media), inferiremo (statisticamente) che ha probabilmente un’età superiore alla media e anche che consuma più gelato di altri bambini. Se l’unica cosa che sappiamo di Barbara è che è ottantacinquesima nell’abilità nel suonare il piano (molto sotto la media del gruppo), inferiremo che è probabile sia una bambina piccola e che si eserciti meno della maggior parte degli altri bambini.

Il «coefficiente di correlazione» tra due misure, che varia da 0 a 1, è una misura del peso relativo dei fattori che esse condividono. Per esempio, tutti condividiamo metà dei geni con ciascuno dei nostri genitori, e per caratteristiche come l’altezza, in cui i fattori ambientali hanno un’influenza relativamente scarsa, la correlazione tra genitore e figlio non è lontana da 0,50.3 Per comprendere a fondo il significato della misura di correlazione, ecco alcuni esempi di coefficienti:

• La correlazione tra le dimensioni di oggetti misurati con precisione in unità inglesi o in unità metriche è 1. Qualunque fattore influenzi una misura influenza anche l’altra; il 100 per cento dei determinanti è condiviso.

• La correlazione tra altezza e peso dei maschi adulti americani è, secondo i dati da essi stessi forniti, 0,41.4 Se si includessero donne e bambini, la correlazione sarebbe assai più elevata, perché il genere e l’età degli individui influenzano sia l’altezza sia il peso, accrescendo il peso relativo dei fattori condivisi.

• La correlazione tra i punteggi del SAT, il test di valutazione per l’ingresso nelle università americane, e la GPA, la media finale dei voti riportati dallo studente universitario, è circa 0,60. Ma la correlazione tra i test attitudinali e il successo all’università è molto più bassa, soprattutto perché l’attitudine misurata varia poco in questo gruppo selezionato. Se tutti hanno attitudini simili, è improbabile che le differenze in questa misura svolgano un ruolo importante nel quantificare il successo.

• La correlazione tra reddito e livello di istruzione negli Stati Uniti è di circa 0,40.5

• La correlazione tra il reddito di una famiglia e le ultime quattro cifre del suo numero di telefono è 0.

Occorsero a Francis Galton parecchi anni per capire che la correlazione e la regressione non sono due concetti, bensì due diversi modi di vedere lo stesso concetto.6 La regola generale è semplice, ma ha conseguenze sorprendenti: ogniqualvolta la correlazione tra due punteggi è imperfetta, si ha regressione verso la media. Per illustrare l’intuizione che folgorò Galton, prendiamo una proposizione che la maggior parte della gente trova alquanto interessante:

Le donne molto intelligenti tendono a sposare uomini che sono meno intelligenti di loro.

Si può avviare una bella conversazione sull’argomento a un party, chiedendo la spiegazione dell’enunciato ad alcuni amici, i quali saranno pronti a dare il loro parere. Anche persone che hanno un’infarinatura di statistica interpreteranno spontaneamente la frase in termini causali. Alcuni magari penseranno che le donne molto intelligenti vogliano evitare la competizione di uomini altrettanto intelligenti, o che siano state costrette a fare un compromesso nella scelta del coniuge perché gli uomini intelligenti non vogliono competere con le donne intelligenti. A un buon party vengono fuori anche spiegazioni più astruse. Ora consideriamo quest’altro enunciato:

La correlazione tra i gradi di intelligenza dei coniugi è imperfetta.

L’enunciato è palesemente vero e per niente interessante. Chi si aspetterebbe mai che fosse una correlazione perfetta? Non c’è niente da spiegare. Ma l’asserzione che abbiamo trovato interessante e l’asserzione che abbiamo trovato banale sono algebricamente equivalenti. Se la correlazione tra l’intelligenza dei coniugi è imperfetta (e se uomini e donne in media non differiscono per grado di intelligenza), è matematicamente inevitabile che le donne molto intelligenti sposino uomini che sono in media meno intelligenti di loro (e viceversa, naturalmente). La regressione verso la media che si osserva non può essere più interessante o più spiegabile della correlazione imperfetta.

Con tutta probabilità, ti sentirai profondamente solidale con il povero Galton alle prese con il concetto di regressione. In effetti, lo statistico David Freedman soleva dire che, se in una causa civile o penale saltasse fuori l’argomento della regressione, la parte che fosse costretta a spiegarlo alla giuria perderebbe il processo. Come mai è un concetto tanto difficile? La ragione principale della difficoltà è uno dei leitmotiv di questo libro: la nostra mente è fortemente incline alle spiegazioni causali e non sa gestire bene i «meri dati statistici». Quando un evento attira la nostra attenzione, la memoria associativa ne cerca la causa, o meglio, l’attivazione si trasmette automaticamente a qualunque causa sia già immagazzinata in memoria. Quando viene rilevata la regressione, si evocano spiegazioni causali, che però si rivelano sbagliate, perché la verità è che la regressione verso la media ha una spiegazione, ma non una causa. L’evento che attira la nostra attenzione nel torneo di golf è il frequente peggioramento della prestazione dei golfisti che avevano avuto molto successo il primo giorno. La migliore spiegazione del fenomeno è che quei giocatori abbiano avuto un’insolita fortuna all’inizio, ma questa spiegazione non ha la forza causale che la nostra mente predilige. Anzi, noi paghiamo profumatamente delle persone perché ci diano spiegazioni interessanti di effetti di regressione. Un giornalista economico che dicesse correttamente che «l’economia è andata meglio quest’anno perché era andata male l’anno scorso» non verrebbe più invitato ai talk-show televisivi.

Le nostre difficoltà con il concetto di «regressione verso la media» originano sia dal sistema 1 sia dal sistema 2. Senza istruzioni speciali, e in molti casi anche dopo alcune istruzioni statistiche, la relazione tra correlazione e regressione rimane oscura. Il sistema 2 trova difficile capire e imparare. Questo è dovuto in parte alla richiesta insistente di interpretazioni causali, che è una caratteristica del sistema 1.

I bambini depressi cui viene somministrata con regolarità una bibita energetica migliorano sensibilmente in un periodo di tre mesi. Ho inventato io questo titolo di giornale, ma il dato che riporto è vero: se per un certo periodo di tempo si somministrasse con regolarità una bibita energetica a un gruppo di bambini depressi, essi mostrerebbero un miglioramento clinicamente significativo. È vero che mostrano un miglioramento anche i bambini depressi che passano del tempo a testa in giù e piedi in aria o tengono in braccio un gatto venti minuti al giorno. La maggior parte delle persone che leggono articoli del genere dedurrà automaticamente che la bibita energetica o il tenere in braccio un gatto abbiano indotto il miglioramento, ma la conclusione è del tutto ingiustificata. I bambini depressi sono un gruppo estremo, in quanto sono più depressi della maggior parte degli altri bambini, e i gruppi estremi regrediscono verso la media nel corso del tempo. La correlazione tra punteggi di depressione nelle varie occasioni di misurazione è imperfetta, sicché vi è regressione verso la media: i bambini depressi migliorerebbero leggermente nel corso del tempo anche se non abbracciassero nessun gatto e non bevessero nessuna Red Bull. Per poter concludere che una bibita energetica, o qualsiasi altra cura, è efficace, bisogna confrontare un gruppo di pazienti che ricevono questo trattamento con un «gruppo di controllo» che non riceve alcun trattamento (o meglio che riceve un placebo). Il gruppo di controllo dovrebbe migliorare solo ed esclusivamente per regressione verso la media, e lo scopo dell’esperimento sarebbe di determinare se i pazienti trattati con la bibita o altro migliorino più di quanto non sia giustificato dalla regressione verso la media.

Le interpretazioni causali scorrette degli effetti della regressione non sono proprie solo dei lettori di riviste popolari. Lo statistico Howard Wainer ha steso un lungo elenco di eminenti ricercatori che hanno commesso lo stesso errore, confondendo la mera correlazione con la causalità.7 Gli effetti della regressione verso la media sono una comune fonte di guai nel settore della ricerca, e gli scienziati esperti hanno una sana paura di cadere nella trappola delle inferenze causali infondate.

Ho tratto e adattato uno dei miei esempi preferiti degli errori della predizione intuitiva dall’eccellente testo di Max Bazerman Judgment in Managerial Decision Making (Il giudizio nel decision making manageriale):

Sei un esperto in previsioni di vendita di una catena di grandi magazzini. Tutti i negozi hanno dimensioni e selezione della merce analoghe, ma le loro vendite differiscono a causa degli affitti, della concorrenza e di fattori casuali. Ti vengono forniti i risultati del 2011 e ti si chiede di prevedere le vendite del 2012. Ti hanno ordinato di considerare valida la previsione generale degli economisti, secondo la quale le vendite aumenteranno nel complesso del 10 per cento. Come completeresti la seguente tabella?

Negozio

2011

2012

1

$11.000.000

 

2

$23.000.000

 

3

$18.000.000

 

4

$29.000.000

 

Totale

$81.000.000

$89.100.000

Dopo avere letto questo capitolo, sai che la soluzione ovvia di aggiungere il 10 per cento alle vendite di ciascun negozio è sbagliata. Le previsioni devono essere regressive, il che significa aggiungere più del 10 per cento ai negozi che hanno reso meno e aggiungere meno (o addirittura sottrarre) agli altri. Ma se chiedessimo ad altre persone meno avvertite di te, probabilmente si stupirebbero, e si domanderebbero perché mai dovremmo disturbarle con domande tanto ovvie. Come scoprì dolorosamente Galton, il concetto di «regressione verso la media» è tutt’altro che ovvio.

A proposito di regressione verso la mediocrità

«Dice che l’esperienza le ha insegnato che le critiche sono più efficaci delle lodi. Non capisce che l’efficacia è dovuta solo alla regressione verso la media.»

«Forse il suo secondo colloquio ci ha colpito meno del primo perché aveva paura di deluderci, ma è più probabile sia stato il suo primo a essere insolitamente brillante.»

«Il nostro metodo di vaglio è buono, ma non perfetto, sicché bisogna aspettarsi la regressione verso la media. Non dovremmo stupirci se i candidati di gran lunga migliori spesso non soddisfano le nostre aspettative.»