Paul Meehl è stato un personaggio bizzarro e meraviglioso, nonché uno degli psicologi più eclettici del XX secolo. Aveva incarichi accademici in una quantità di facoltà, tra cui psicologia, giurisprudenza, psichiatria, neurologia e filosofia. Ha scritto anche di religione, scienze politiche e apprendimento dei ratti. Ricercatore statisticamente sofisticato e fiero critico delle vuote tesi della psicologia clinica, esercitava anche la professione di psicoanalista. Sui fondamenti filosofici della ricerca psicologica, ha scritto dei saggi profondi che imparai quasi a memoria quando ero studente. Non l’ho mai conosciuto personalmente, ma era uno dei miei idoli fin dall’epoca in cui lessi il suo Clinical vs. Statistical Prediction: A Theoretical Analysis and a Review of the Evidence.
In quel piccolo volume, che in seguito definì «il mio inquietante libretto», esaminava i risultati di venti indagini in cui si era studiato se le «previsioni cliniche» basate su impressioni soggettive di professionisti esperti fossero più precise di «previsioni statistiche» elaborate combinando alcuni punteggi o rating secondo una regola. In un’indagine tipica, psicologi esperti prevedevano i voti delle matricole alla fine del primo anno di università. Gli psicologi clinici intervistavano ciascuno studente per quarantacinque minuti. Avevano anche accesso ai voti registrati da quegli stessi studenti al liceo, a vari test attitudinali e a una dichiarazione personale di quattro pagine. L’algoritmo statistico usava solo una frazione di quelle informazioni: i voti del liceo e un unico test attitudinale. Nondimeno, la formula risultava più precisa di undici dei quattordici verdetti degli psicologi clinici. Meehl riportava risultati complessivamente simili in diverse altre previsioni, tra cui violazioni della libertà vigilata, successo nel corso di addestramento piloti e recidive criminali.
Com’era prevedibile, il suo libro suscitò stupore e incredulità tra gli psicologi clinici, e le controversie che provocò generarono un flusso di ricerca che non si è ancora arrestato oggi, a oltre mezzo secolo dalla pubblicazione del libro. Le indagini che confrontavano predizioni cliniche e predizioni statistiche aumentarono di numero, arrivando a duecento, ma il punteggio, nella gara tra algoritmi ed esseri umani, non cambiò. Circa il 60 per cento degli studi ha dimostrato che gli algoritmi sono assai più esatti. Dagli altri confronti risulta un pareggio per quanto riguarda l’accuratezza, ma un pareggio equivale a una vittoria per le regole statistiche, che di norma sono molto meno costose del giudizio degli esperti. Non è stata documentata in maniera convincente nessuna eccezione.
La gamma dei risultati previsti si è espansa fino a coprire svariati settori: variabili mediche come la longevità dei malati di cancro, la lunghezza dei soggiorni in ospedale, la diagnosi di cardiopatia e la vulnerabilità dei neonati alla sindrome della morte in culla; variabili economiche come le prospettive di successo di nuove imprese, la valutazione bancaria del rischio di credito e la futura soddisfazione nel lavoro degli operai; questioni burocratico-istituzionali, come la valutazione di idoneità di potenziali genitori adottivi, la probabilità di recidive dei delinquenti minorili e la probabilità di altre forme di comportamento violento; risultati misti come la valutazione di presentazioni scientifiche, la vittoria nelle partite di calcio e i futuri prezzi dei vini Bordeaux. Ciascuno di questi settori comporta un notevole grado di incertezza e imprevedibilità. Li definiamo «ambienti a bassa validità». In ogni caso, la precisione degli esperti è stata uguagliata o superata da un semplice algoritmo.
Come osservò Meehl con comprensibile orgoglio trent’anni dopo la pubblicazione del suo libro: «Nel campo delle scienze sociali non c’è nessuna controversia che, come questa, conti un così ricco corpus di studi qualitativamente vari che indichino in maniera tanto uniforme in un’unica direzione».1
Orley Ashenfelter, economista di Princeton e grande estimatore di vini, ha dato un’affascinante dimostrazione di come la semplice statistica sia in grado di battere esperti di fama mondiale. Egli voleva prevedere il futuro valore di pregiati Bordeaux in base alle informazioni disponibili nell’anno in cui erano stati prodotti. La questione è importante, perché i vini pregiati impiegano anni a raggiungere la qualità massima e i prezzi dei vini maturi provenienti dalla stessa vigna variano sensibilmente a seconda delle annate: bottiglie imbottigliate a soli dodici mesi di distanza possono avere valori che differiscono di un fattore di 10 o anche più.2 La capacità di prevedere i prezzi futuri è di fondamentale importanza, perché gli investitori comprano il vino, come le opere d’arte, in previsione del fatto che il suo valore aumenti.
Si conviene in genere che le annate siano più o meno pregiate a seconda delle variazioni climatiche registrate durante il ciclo di vita dell’uva. I vini migliori sono prodotti quando l’estate è calda e secca, e questo rende l’industria del Bordeaux una probabile beneficiaria del riscaldamento globale. L’industria è anche aiutata dalle primavere piovose, che aumentano la quantità senza compromettere la qualità. Ashenfelter convertì le conoscenze tradizionali in una formula statistica che predice il prezzo del vino, per una particolare vigna e una particolare annata, in base a tre caratteristiche climatiche: le temperature medie nella stagione estiva in cui cresce l’uva, la quantità di pioggia all’epoca della vendemmia e il totale di precipitazioni durante l’inverno precedente. La sua formula fornisce accurate previsioni dei prezzi relativi ad anni o addirittura decenni futuri. Di fatto, prevede i prezzi futuri molto più esattamente di quanto non lo prevedano i prezzi correnti dei vini giovani. Questo nuovo esempio di «modello Meehl» sfida le capacità degli esperti, la cui opinione contribuisce a definire il prezzo iniziale. Sfida anche la teoria economica, secondo la quale i prezzi dovrebbero rispecchiare tutte le informazioni disponibili, comprese quelle relative al clima. La formula di Ashenfelter è estremamente precisa: la correlazione tra le sue previsioni e i prezzi reali è di oltre il 90 per cento.
Perché gli esperti sono meno affidabili degli algoritmi? Uno dei motivi, secondo Meehl, è che essi cercano di essere bravi, di assumere un punto di vista inedito, e nel fare le loro predizioni prendono in considerazione combinazioni complesse di caratteristiche. La complessità magari funziona nel caso particolare, ma spesso e volentieri riduce la validità. Le combinazioni semplici di caratteristiche sono migliori. Parecchi studi hanno dimostrato che i decisori umani sono meno affidabili di una formula predittiva anche quando viene fornito loro il punteggio suggerito dalla formula! Ritengono di poter scartare la formula perché dispongono di ulteriori informazioni sul caso, ma quasi sempre si sbagliano. Secondo Meehl, vi sono pochissime circostanze in cui sostituire alla formula il giudizio si rivela una buona idea. In un famoso esperimento ideale, descrive una formula che prevede se una particolare persona andrà al cinema stasera, e osserva che conviene lasciar perdere la formula se si viene a sapere che la persona si è appena rotta una gamba. L’espressione «regola della gamba rotta» ha finito per diffondersi. Il problema è naturalmente che le gambe rotte sono molto rare; e anche decisive.
Un altro motivo dell’inferiorità del giudizio dell’esperto è che gli esseri umani si rivelano incorreggibilmente incoerenti quando formulano giudizi sommari su informazioni complesse. Se viene loro chiesto di valutare le stesse informazioni due volte, spesso danno risposte differenti. L’entità dell’incoerenza è spesso motivo di seria preoccupazione. Esperti radiologi, che giudicano la radiografia dei polmoni di un soggetto «normale» o «anormale», si contraddicono il 20 per cento delle volte quando vedono la stessa immagine in un’altra occasione.3 Uno studio effettuato su 101 revisori di conti, ai quali fu chiesto di valutare l’attendibilità di conti aziendali interni, rivelò un analogo grado di incoerenza.4 L’esame di quarantuno distinti studi di attendibilità riguardanti i giudizi di revisori di conti, patologi, psicologi, manager dell’organizzazione aziendale e altri professionisti fa pensare che il livello di incoerenza sia tipico, anche quando un caso viene giudicato di nuovo a distanza di pochi minuti.5 I giudizi inattendibili non possono essere validi predittori di alcunché.
La diffusa incoerenza è probabilmente dovuta all’estrema dipendenza dal contesto del sistema 1. Sappiamo da studi di priming come stimoli che sono presenti nel nostro ambiente ma che noi non notiamo abbiano una notevole influenza sui nostri pensieri e le nostre azioni. Tali influenze fluttuano di momento in momento. Il breve piacere di un venticello fresco in una giornata torrida ci induce a considerare con maggior favore e ottimismo qualunque cosa stiamo valutando in quel momento. Le prospettive di un carcerato in attesa di sapere se gli concederanno la libertà sulla parola possono variare sensibilmente a seconda che il giudice incaricato della decisione sia vicino o lontano dalla pausa pranzo.6 Poiché abbiamo una scarsissima conoscenza diretta di quello che accade nella nostra mente, non sapremo mai che avremmo potuto formulare un altro giudizio o arrivare a una decisione diversa in circostanze leggermente diverse. Le formule non risentono di questi problemi: dato il medesimo input, forniscono sempre la stessa risposta. Quando la predittività è scarsa, come lo è nella maggior parte degli studi esaminati da Meehl e dai suoi seguaci, l’incoerenza distrugge qualsiasi validità predittiva.
La ricerca suggerisce una conclusione sorprendente: per massimizzare l’accuratezza predittiva, le decisioni finali dovrebbero essere affidate alle formule, specie negli ambienti a bassa validità. Per esempio, nelle prove di ammissione degli studenti alla facoltà di medicina, spesso la decisione finale è presa da membri della facoltà che hanno un colloquio con il candidato. Per il momento sono disponibili solo prove frammentarie, ma elementi concreti fanno pensare che condurre un colloquio in genere riduca l’accuratezza di una procedura di selezione se gli intervistatori sono gli stessi che alla fine decidono dell’ammissione o della bocciatura del candidato. Poiché hanno un’incrollabile fiducia nelle loro intuizioni, essi assegnano troppo peso alle loro impressioni personali e troppo poco alle altre fonti di informazioni, riducendo la validità del giudizio.7 Analogamente, gli esperti che valutano la qualità del vino giovane per predirne il futuro hanno una fonte di informazione che quasi sicuramente peggiora, anziché migliorare, le cose: assaggiano il vino. Inoltre, naturalmente, anche se comprendessero abbastanza bene gli effetti del clima sulla qualità del vino, non riuscirebbero a mantenere la coerenza propria di una formula.
Lo sviluppo più importante nel campo dall’epoca del lavoro originario di Meehl è il famoso articolo di Robyn Dawes The Robust Beauty of Improper Linear Models in Decision Making (La robusta bellezza dei modelli lineari impropri nel processo decisionale).8 La pratica statistica dominante delle scienze sociali è assegnare pesi a distinti predittori seguendo un algoritmo, chiamato «regressione multipla», oggi incorporato nel software convenzionale. La logica della regressione multipla è indiscutibile: trova la formula ottimale per mettere insieme una combinazione ponderata di predittori. Tuttavia Dawes osservò che il complesso algoritmo statistico aggiunge pochissimo valore, se non addirittura nessuno. Tanto vale selezionare una serie di punteggi di una qualche validità per predire il risultato e aggiustare i valori in maniera da renderli comparabili (usando ranghi o punti standard). Una formula che combina questi predittori con pesi uguali tenderà a essere altrettanto precisa nel predire nuovi casi della formula della regressione multipla che era ottimale nel campione originario. La ricerca più recente si è spinta più in là: le formule che assegnano pesi uguali a tutti i predittori sono spesso superiori, perché non sono influenzate da incidenti di campionamento.9
Il successo sorprendente degli schemi di equal-weighting, di ponderazione equa, ha un’importante conseguenza pratica: è possibile sviluppare algoritmi utili senza nessuna ricerca statistica precedente. Formule semplici equo-ponderate, basate sui dati statistici esistenti o sul senso comune, sono spesso ottimi predittori di risultati importanti. In un esempio memorabile, Dawes dimostrò che la stabilità coniugale è ben prevista dalla formula: «frequenza del sesso meno frequenza dei litigi».
Il risultato non deve essere un numero negativo.
L’importante conclusione di questa ricerca è che un algoritmo elaborato sul retro di una busta è spesso abbastanza valido da competere con una formula ponderata in maniera ottimale, e certo abbastanza valido da battere il giudizio di un esperto. Questa logica si può applicare a molti settori, che vanno dalla scelta di titoli azionari da parte dei trader a quella di terapie mediche da parte di medici o pazienti.
Una classica applicazione di tale metodo è un semplice algoritmo che ha salvato la vita a centinaia di migliaia di bambini. Gli ostetrici hanno sempre saputo che un bambino che non respira normalmente a pochi minuti dalla nascita corre il forte rischio di danno cerebrale o morte. Finché, nel 1953, l’anestesista Virginia Apgar non introdusse il suo metodo di valutazione della vitalità, medici e ostetriche usavano il loro giudizio clinico per determinare se un neonato fosse in difficoltà. Medici diversi guardavano a indizi diversi. Alcuni controllavano che non vi fossero problemi di respirazione, mentre altri stavano più attenti a quanto presto arrivasse il tipico strillo. Senza una procedura standard, i segni di pericolo erano spesso ignorati e molti neonati morivano.
Un giorno, a colazione, un medico interno chiese alla dottoressa Apgar che sistema avrebbe usato per valutare la vitalità di un neonato.10 «È facile» rispose lei. «Si fa così.» Scrisse cinque variabili (frequenza cardiaca, respirazione, riflessi, tono muscolare e colorito) e tre punteggi (0, 1 o 2, secondo la robustezza di ciascun segno). Rendendosi conto di avere forse inventato una formula che qualsiasi sala parto avrebbe potuto usare, la Apgar cominciò a classificare i neonati secondo quella regola a un minuto dalla nascita. Un bambino con un punteggio totale di 8 o più, era roseo, si dimenava, strillava, faceva smorfie e aveva cento o più pulsazioni: insomma era in buona salute. Un bambino con un punteggio di 4 o meno era in genere cianotico, flaccido, passivo, con un polso lento o debole, e aveva bisogno di immediato soccorso. Nella formula di Virginia Apgar il personale delle sale parto trovò finalmente un parametro coerente per determinare se un neonato avesse dei problemi, e tale metodo di misurazione della vitalità ebbe il merito di ridurre in maniera significativa la mortalità infantile. Il test di Apgar è ancora usato quotidianamente in tutte le sale parto. Il recente Checklist: come fare andare meglio le cose, di Atul Gawande, fornisce molti altri esempi delle virtù delle liste di controllo e delle regole semplici.11
L’ostilità verso gli algoritmi
Fin dal primissimo istante, gli psicologi clinici reagirono alle idee di Meehl con ostilità e incredulità. Erano chiaramente in preda a un’illusione di abilità, per quanto riguardava la loro capacità di fare predizioni a lungo termine. A ben riflettere, è facile vedere come sia nata questa illusione e si può facilmente solidarizzare con il loro rifiuto della ricerca di Meehl.
Le prove statistiche dell’inferiorità clinica contraddicono l’esperienza che i clinici hanno quotidianamente della qualità dei loro giudizi. Gli psicologi che lavorano con i pazienti hanno, durante ogni seduta terapeutica, molte intuizioni con le quali prevedono come il soggetto reagirà a un loro intervento e indovinano che cosa accadrà subito dopo. Molte di quelle intuizioni sono confermate e mostrano come l’abilità clinica sia una realtà concreta.
Il problema è che i giudizi corretti riguardano predizioni a breve termine nel contesto del colloquio terapeutico, un’abilità nella quale i terepeuti hanno spesso anni di pratica. I compiti in cui falliscono in genere riguardano predizioni a lungo termine circa il futuro del paziente. Questi compiti sono assai più difficili: anche le migliori formule funzionano solo in maniera modesta, e sono tra l’altro compiti che i clinici non hanno mai avuto l’opportunità di imparare adeguatamente, in quanto per farlo avrebbero dovuto aspettare un feedback di anni, anziché quello istantaneo della seduta terapeutica. Tuttavia lo spartiacque tra quello che i clinici sanno fare bene e quello che non sanno fare affatto non è evidente, e certo non è evidente a loro. Essi sanno di avere competenza, ma non sempre conoscono i confini della loro competenza. Non c’è da stupirsi, quindi, che clinici esperti respingano con forza l’idea che una combinazione meccanica di alcune variabili funzioni meglio della delicata complessità del giudizio umano.
Il dibattito sulle virtù della predizione clinica o della predizione statistica ha sempre avuto anche un côté morale. I clinici esperti, scrisse Meehl, criticavano il metodo statistico in quanto «meccanico, atomistico, aggiuntivo, definitivo, artificiale, irreale, arbitrario, incompleto, morto, pedantesco, frammentario, banale, artefatto, statico, superficiale, rigido, sterile, accademico, pseudoscientifico e cieco». Elogiavano invece il metodo clinico in quanto «dinamico, globale, significativo, olistico, sottile, empatico, configurale, configurato, organizzato, ricco, profondo, autentico, sensibile, sofisticato, reale, vivo, concreto, naturale, comprensivo e corrispondente alla vita».
È un atteggiamento che tutti riconosciamo. Quando un uomo compete con una macchina, si tratti dell’operaio John Henry, che secondo la leggenda riuscì a piantare più chiodi nella ferrovia del martello a vapore, o del campione di scacchi Garri Kasparov, che affrontò il computer Deep Blue, le nostre simpatie vanno agli esseri umani. L’avversione per l’idea che degli algoritmi prendano decisioni capaci di influenzare gli uomini è radicata e testimoniata dalla forte preferenza che molti hanno per le cose naturali rispetto alle cose sintetiche o artificiali. Alla domanda se preferirebbe mangiare una mela biologica o coltivata industrialmente, la maggior parte della gente risponderebbe: «Quella naturale al cento per cento». Anche dopo avere saputo che le due mele hanno lo stesso sapore, identico valore nutritivo e sono parimenti sane, la maggior parte degli esseri umani continuerebbe a preferire il frutto biologico.12 Anche i produttori di birra hanno scoperto di poter incrementare le vendite attaccando alle loro bottiglie e lattine l’etichetta «biologica» o «senza conservanti».
La profonda resistenza alla demistificazione della competenza umana è illustrata dalla reazione della comunità vinicola europea alla formula di Ashenfelter per predire il prezzo dei Bordeaux. La formula rispondeva a una richiesta, quindi si poteva prevedere che gli amanti del vino di tutto il mondo le sarebbero stati grati per avere visibilmente migliorato la loro capacità di identificare i vini destinati a diventare buoni. Come scrisse il «New York Times», la reazione, nei circoli di viticoltori francesi, «oscillò tra la violenza e l’isteria». Ashenfelter riferisce che un enologo definì le sue scoperte «ridicole e assurde», e un altro lo schernì dicendo: «È come giudicare un film senza averlo visto».
Il pregiudizio contro gli algoritmi raggiunge il parossismo nel caso di decisioni importanti. Osservò Meehl: «Non so bene come mitigare l’orrore che alcuni psicologi clinici sembrano provare quando immaginano che a un caso trattabile venga negata la terapia perché una “cieca, meccanica” equazione lo classifica erroneamente». Meehl e altri alfieri degli algoritmi hanno replicato con veemenza che, al contrario, è immorale affidarsi ai giudizi intuitivi per decisioni importanti quando è disponibile un algoritmo che commette meno errori. Il loro argomento razionale è stringente, ma va a sbattere contro un’ostinata realtà psicologica: per la maggior parte della gente, la causa di un errore conta parecchio. Se un bambino muore perché un algoritmo ha commesso un errore è più terribile che se muore a causa di un errore umano, e la differenza di intensità emozionale è prontamente tradotta in preferenza morale.
Per fortuna, l’ostilità verso gli algoritmi probabilmente si attenuerà a mano a mano che aumenterà il loro ruolo nella vita quotidiana. Quando cerchiamo libri o musica di nostro gradimento, apprezziamo i consigli generati dal software. Diamo per scontato che le decisioni in merito ai limiti del credito siano prese senza il diretto intervento di un giudizio umano. Siamo sempre più esposti a linee guida che hanno la forma di algoritmi semplici, come il rapporto ideale tra livelli di colesterolo «buono» e «cattivo». Il pubblico ormai sa bene che le formule spesso funzionano meglio degli uomini in alcune decisioni critiche nel mondo dello sport, per esempio quando si deve decidere quanto una squadra professionale debba pagare determinati giocatori novellini o quando si debba ricorrere al punt al quarto down. La lista sempre più lunga di compiti assegnati agli algoritmi dovrebbe ridurre infine lo sconforto che la maggior parte della gente prova la prima volta in cui si trova davanti allo schema di risultati che Meehl descrisse nel suo «inquietante libretto».
Imparare da Meehl
Nel 1955, quando ero un ventunenne tenente nelle forze di difesa israeliane, mi fu ordinato di studiare un sistema di colloqui per l’intero esercito. Se ti stai chiedendo per quale motivo una simile responsabilità fosse stata assegnata a un ragazzo tanto giovane, non dimenticare che lo stesso Stato di Israele aveva all’epoca solo sette anni di vita: si stavano fondando tutte le sue istituzioni, e qualcuno doveva pur metterle insieme. Per quanto oggi possa sembrare strano, la mia laurea di primo grado in psicologia bastava forse a qualificarmi come lo psicologo più esperto dell’esercito. Il mio diretto superiore, un brillante ricercatore, aveva una laurea in chimica.
Quando mi fu affidata quella missione, esisteva già una routine di colloqui. Ogni soldato arruolato nell’esercito veniva sottoposto a una batteria di test psicometrici, e ciascun individuo potenzialmente idoneo al servizio sul campo doveva affrontare un colloquio con cui si valutava la sua personalità. Lo scopo era di assegnare alla recluta un punteggio di adattamento generale al servizio e di scoprire quale fosse, tra le varie branche, quella più adatta alla sua personalità: se la fanteria, l’artiglieria, i mezzi corazzati e così via. Gli intervistatori erano a loro volta giovani coscritti, scelti per quel compito a causa della loro elevata intelligenza e dell’interesse a trattare con le persone. La maggior parte era costituita da donne, all’epoca esonerate dal combattimento. Addestrate per alcune settimane a condurre colloqui di quindici-venti minuti, erano incoraggiate a toccare svariati argomenti e a farsi un’impressione generale del possibile rendimento della recluta nell’esercito.
Purtroppo, le valutazioni a posteriori avevano già mostrato come le procedure dei colloqui non servissero affatto a prevedere il successo futuro delle reclute. Mi fu ordinato di studiare un tipo di colloquio che fosse più utile, ma non facesse perdere più tempo di quello esistente. Mi fu anche detto di collaudarlo e valutarne l’efficacia. Dal punto di vista di un professionista serio, non ero più qualificato al compito di quanto lo fossi a costruire un ponte sul Rio delle Amazzoni.
Per fortuna, avevo letto il «libretto» di Paul Meehl, che era uscito appena un anno prima. Mi convinse il suo ragionamento, secondo il quale le semplici regole statistiche sono superiori ai giudizi clinici intuitivi. Conclusi che i colloqui esistenti avevano, almeno in parte, fallito, perché permettevano agli intervistatori di fare quello che ritenevano più interessante, ossia approfondire la dinamica della vita psichica degli intervistati. Avremmo dovuto invece usare il limitato tempo a nostra disposizione per ottenere il maggior numero di informazioni specifiche sulla vita dell’intervistato nel suo ambiente normale. Appresi un’altra lezione da Meehl: dovevamo abbandonare la procedura in base alla quale le valutazioni globali che gli intervistatori facevano degli intervistati determinavano la decisione finale. Dal libro di Meehl si deduceva che non bisognava fidarsi di simili valutazioni e che i riassunti statistici di attributi valutati separatamente avrebbero garantito maggiore validità di giudizio.
Optai per una procedura in cui gli intervistatori valutassero parecchie caratteristiche importanti della personalità e assegnassero a ciascuna un punteggio distinto. Il punteggio finale di idoneità al combattimento sarebbe stato calcolato secondo una formula standard, senza ulteriori input da parte degli intervistatori. Elaborai un elenco di sei caratteristiche che apparivano importanti per il rendimento in un’unità di combattimento, tra cui «responsabilità», «socievolezza» e «orgoglio virile». Poi ideai, per ciascuna caratteristica, una serie di domande fattuali riguardanti la vita dell’individuo prima dell’arruolamento, tra cui quanti lavori aveva fatto, quanto era stato regolare e puntuale nel lavoro o negli studi, con quale frequenza aveva visto gli amici e quanto si interessava allo sport e lo praticava. L’idea era di valutare il più obiettivamente possibile quanto brava fosse stata la recluta in ciascuna di quelle dimensioni.
Concentrandomi su domande standardizzate e fattuali, speravo di combattere l’effetto alone, in base al quale le prime impressioni favorevoli influenzano i giudizi successivi. Come ulteriore precauzione contro gli aloni, ordinai agli intervistatori di vagliare le sei caratteristiche sempre nella stessa sequenza, valutando ciascuna su una scala da uno a cinque prima di passare a quella successiva. Tutto lì. Informai gli intervistatori che non dovevano preoccuparsi del futuro adattamento della recluta all’esercito. Il loro unico compito era apprendere da ciascuno i dati pertinenti in merito al suo passato e usare tali informazioni per assegnare un punteggio a ogni dimensione della personalità. «La vostra funzione è di fornire dati attendibili» dissi. «Lasciate la validità predittiva a me» (intendendo la formula che volevo ideare per combinare le loro valutazioni specifiche).
Gli intervistatori, o meglio le intervistatrici, per poco non si ammutinarono. Quelle giovani donne intelligenti erano scontente di ricevere da uno che aveva pressappoco la loro età l’ordine di mettere a tacere l’intuizione e concentrarsi esclusivamente su noiose questioni fattuali. Una protestò: «Ci sta trasformando in robot!». Così trovai una soluzione di compromesso. «Conducete il colloquio esattamente come vi ho ordinato di condurlo» dissi. «E quando avrete finito, fate come desiderate voi: chiudete gli occhi, cercate di immaginare la recluta come un soldato e assegnatele un punteggio su una scala da uno a cinque.»
Furono condotti parecchie centinaia di colloqui con quel nuovo metodo, e pochi mesi dopo raccogliemmo i giudizi sulle prestazioni dei soldati dagli ufficiali che comandavano le unità a cui essi erano stati assegnati. I risultati ci resero felici. Come aveva lasciato capire Meehl nel suo libro, la nuova impostazione del colloquio costituiva un notevole miglioramento rispetto alla vecchia. La somma dei nostri sei punteggi prevedeva la prestazione dei soldati con molta più precisione delle valutazioni globali del precedente metodo di intervista, anche se i risultati erano tutt’altro che perfetti. I colloqui erano passati da «completamente inutili» a «moderatamente utili».
La grossa sorpresa per me fu che anche il giudizio intuitivo che gli intervistatori formulavano alla fine, chiudendo gli occhi, funzionava molto bene, anzi, altrettanto bene della somma dei sei punteggi specifici. Appresi da quella scoperta una lezione che non ho mai dimenticato: l’intuizione aggiunge valore anche a colloqui di selezione ritenuti giustamente risibili, ma solo dopo una serie disciplinata di informazioni obiettive e una classificazione disciplinata di singoli tratti della personalità. Sintetizzai una formula che assegnava alla valutazione «a occhi chiusi» lo stesso peso della somma dei punteggi dei sei distinti tratti. Una lezione più generale che appresi da quell’episodio fu che non bisogna affidarsi al giudizio intuitivo, proprio o di qualcun altro, ma che non bisogna nemmeno liquidarlo.
A quarantacinque anni di distanza, dopo avere vinto il premio Nobel per l’economia, per un breve periodo fui una piccola celebrità in Israele. Durante una delle mie visite, a qualcuno venne in mente di accompagnarmi nella mia antica base militare, che comprendeva ancora l’unità dove si intervistavano le nuove reclute. Mi fu presentata la ufficiale al comando dell’unità psicologica, la quale mi descrisse l’attuale impostazione dei colloqui, che non era cambiata molto rispetto a quella da me introdotta; venni a sapere che, secondo un notevole numero di ricerche, le interviste funzionavano ancora bene. Quando finì di descrivere il modo in cui venivano condotti i colloqui, l’ufficiale aggiunse: «E poi diciamo loro: “Chiudete gli occhi”».
Fallo da solo
Il messaggio di questo capitolo è facilmente applicabile a compiti diversi dal prendere decisioni riguardo alle potenziali reclute di un esercito. Per attuare procedure di colloquio nello spirito di Meehl e Dawes occorre uno sforzo relativamente piccolo, ma una disciplina notevole. Supponiamo che tu abbia bisogno di assumere un rappresentante di commercio per la tua ditta. Se hai seriamente intenzione di reclutare la persona più adatta allo scopo, ecco che cosa devi fare. Prima di tutto devi scegliere alcune caratteristiche che sono considerate prerequisiti del successo in quel tipo di lavoro (competenza tecnica, simpatia, affidabilità e così via). Non strafare: sei dimensioni è un buon numero. Le caratteristiche che scegli devono essere il più indipendenti possibile l’una dall’altra e devi sentire di poterle valutare in maniera attendibile attraverso alcune domande fattuali. Poi stendi una lista di tali domande per ciascuna caratteristica e rifletti sul punteggio che assegneresti a ognuna di esse su una scala da uno a cinque. Devi avere un’idea chiara di quello che definiresti «molto debole» o «molto forte».
Questi preparativi dovrebbero portarti via una mezz’oretta, un investimento piccolo, ma capace di fare una notevole differenza nella qualità delle persone da assumere. Per evitare effetti alone, raccogli le informazioni su una caratteristica alla volta, assegnando un punteggio a ciascuna prima di passare a quella successiva. Non saltabeccare. Per valutare ciascun candidato, somma i sei punteggi. Poiché spetta a te la decisione finale, non ti conviene «chiudere gli occhi». Decidi risolutamente che assumerai il candidato il cui punteggio finale sarà il più alto, anche se ce ne fosse un altro che ti piace di più: cerca di resistere al desiderio di «inventare gambe rotte» per cambiare la classificazione. Da innumerevoli ricerche risulta che è molto più probabile trovare il candidato migliore con questa procedura che facendo quanto fa di norma la gente in circostanze simili, ossia andare al colloquio impreparata e scegliere in base a un generale giudizio intuitivo, come «l’ho guardato negli occhi e mi è piaciuto quello che ci ho visto».
A proposito di intuizioni contro formule
«Ogni volta che possiamo sostituire a un giudizio umano una formula, dovremmo almeno prendere in considerazione l’idea di farlo.»
«Crede di formulare giudizi complessi e sottili, ma una semplice combinazione di punteggi sarebbe con tutta probabilità più efficace.»
«Decidiamo in anticipo quale peso assegnare ai dati sulla performance passata dei candidati, altrimenti daremo troppo peso all’impressione ricavata dai colloqui.»