18

OM ATT TYGLA INTUITIVA FÖRUTSÄGELSER

Livet erbjuder oss möjligheter att förutspå både det ena och det andra. Ekonomer förutspår inflationen och arbetslösheten, finansanalytiker förutspår vinster, militärexperter förutsäger förluster i människoliv, riskkapitalister beräknar lönsamhet, utgivare och producenter förutsäger publiktillströmningar, byggföretag uppskattar tiden för ett bygge, kockar förutspår efterfrågan på rätterna på menyn, ingenjörer uppskattar hur mycket betong som behövs för en byggnad, brandbefäl beräknar antalet brandbilar som behövs för att släcka en brand. Privat förutspår vi vår partners reaktion när vi föreslår att familjen ska flytta eller vår egen möjlighet att passa in på en ny arbetsplats.

En del förutsägelser, som de som ingenjörer sysslar med, handlar till stor del om att slå i tabeller, göra exakta beräkningar och analysera utfall i snarlika situationer. Andra prognoser är i högre grad knutna till intuitionen och System 1 på i huvudsak två olika sätt. En del sorters intuition bygger i allt väsentligt på kompetens och sakkunskap som förvärvats genom lång erfarenhet. Schackspelares, brandmäns och läkares snabba och automatiska bedömningar och val, vilka Gary Klein har beskrivit i Sources of Power och annorstädes, är exempel på sådan kompetensbaserad intuition där en lösning på ett problem dyker upp snabbt i medvetandet på grund av att vi känner igen vissa signaler.

Andra sorters intuition, som ibland är subjektivt omöjliga att skilja från de förra, uppstår ur heuristiker som ofta innebär att den svåra fråga som från början ställdes byts mot en lättare. Inte sällan förlitar vi oss på intuitiva bedömningar även när de bygger på ickeregressiva värderingar av svaga bevis. Naturligtvis bygger många bedömningar, särskilt i yrkeslivet, på en kombination av analys och intuition.

ICKEREGRESSIVA INTUITIONER

Låt oss gå tillbaka till en person vi redan har träffat:

Julie går sista året på universitet. Hon läste obehindrat vid fyra års ålder. Vad har hon för medelbetyg?

De som känner till amerikanska utbildningsförhållanden kommer snabbt att tänka på ett tal, ofta omkring 3,7 eller 3,8. Hur kommer det sig? Det beror på flera mekanismer hos System 1.

•    Man söker efter en kausal koppling mellan beviset (Julies läskunnighet) och förutsägelsens mål (medelbetyget). Kopplingen kan vara indirekt. I det här fallet är såväl tidig läskunnighet som högt medelbetyg tecken på att personen är begåvad för högre studier. Någon form av koppling behövs. Du (ditt System 2) skulle antagligen inte fästa någon vikt vid om Julie hade vunnit en tävling i flugfiske eller varit duktig i tyngdlyftning på gymnasiet. Processen är strikt dikotom – det är antingen eller som gäller. Vi kan sortera bort information som är uppenbart ovidkommande eller falsk, men System 1 klarar inte att justera för mindre svagheter i bevisföringen. Det innebär att intuitiva förutsägelser är nästan helt okänsliga för bevisets verkliga värde som bas för en prognos. När en koppling påträffas, som i fallet med Julies läskunnighet, tror vi att vi har sett allt som finns att se: vårt associativa minne konstruerar snabbt och automatiskt bästa möjliga berättelse med stöd av det tillgängliga materialet.

•    Nästa steg innebär att beviset värderas i förhållande till en relevant norm. Hur brådmoget är ett barn som kan läsa vid fyra års ålder? Vilken plats på rankingen, vilken percentil, motsvarar denna prestation? Den grupp som barnet jämförs med (den så kallade referensgruppen) är inte klart angiven, men så är det ofta i dagligt tal. Om någon som tar examen från universitetet beskrivs som ”rätt intelligent” behöver man sällan fråga: ”När du säger ’rätt intelligent’, vilken referensgrupp jämför du då med?”

•    Nästa steg handlar om substitution och styrkematchning. Bedömningen av ett svagt bevis på kognitiv förmåga i barndomen ersätter svaret på en fråga om hennes medelbetyg som student. Julies medelbetyg kommer att hamna på samma percentil som prestationen att kunna läsa i så unga år.

•    Som frågan var ställd skulle svaret anges som ett medelbetyg, vilket kräver ännu en styrkematchning, då ett allmänt intryck av Julies akademiska prestation knyts till det medelbetyg som matchar beviset för hennes talang. I det sista steget översätts intrycket av Julies akademiska resultat till motsvarande medelbetyg.

Styrkematchning ger förutsägelser som är lika extrema som de bevis de bygger på, vilket får personerna att lämna samma svar på två helt olika frågor.

Vilken percentil hamnar Julias tidiga läskunnighet på?
Vilken percentil hamnar Julies medelbetyg på?

Vid det här laget bör du inse att alla de här procedurerna hör till System 1. Jag beskrev dem här stegvis, men i verkligheten fungerar det associativa minnets aktiveringar inte så. Tänk dig i stället en process där aktiveringen utlöses av beviset och frågan, ger sig själv feedback och till slut fastnar för den lösning som är mest sammanhängande.

Amos och jag bad en gång deltagarna i ett experiment att bedöma beskrivningar av åtta färska studenter, beskrivningar vi påstod var författade av en studievägledare som hade intervjuat en klass med förstaårsstudenter. Varje beskrivning bestod av fem adjektiv, som i följande exempel:

intelligent, självsäker, påläst, flitig, nyfiken

Vi bad några av deltagarna att besvara följande två frågor:

Hur starkt förknippar du beskrivningen med förmågan att lyckas med högre studier?

Hur stor andel av beskrivningarna av nya studenter tror du att du skulle bli mer imponerad av?

För att besvara frågorna måste du värdera bevisen genom att jämföra dem med din norm för studievägledares beskrivningar av studenter. Att det överhuvudtaget existerar en sådan norm är anmärkningsvärt. Även om du inte riktigt vet hur det kommer sig, har du en ganska god uppfattning om hur mycket entusiasm beskrivningen förmedlar: studievägledaren menar att studenten ifråga är duktig, men inte anmärkningsvärt duktig. Det finns utrymme för starkare adjektiv än intelligent (briljant, kreativ), påläst (lärd, beläst, ytterst bildad) och flitig (passionerad, perfektionistisk). Domen lyder: personen hör mycket sannolikt till de bästa 15 procenten, men knappast till de bästa 3 procenten. Man kan konstatera en förbluffande stor överensstämmelse mellan olika personers bedömningar, åtminstone så länge vi rör oss inom en och samma kultur.

De övriga deltagarna i experimentet fick andra frågor:

Vad uppskattar du att studenten kommer att få för medelbetyg? Hur stor andel av de nyantagna studenterna kommer att få högre medelbetyg?

Du behöver nog läsa en gång till för att upptäcka den subtila skillnaden mellan de båda frågeparen. Skillnaden borde vara uppenbar, men det är den inte. I motsats till de båda första frågorna, då du bara behövde bedöma beviset, rymmer det andra paret en hel del osäkerhet. Frågorna avser studenternas faktiska resultat efter sitt första år vid universitetet. Hur har de presterat under året efter det att intervjuerna gjordes? Hur exakt kan du förutsäga studenternas prestation under det första året utifrån fem adjektiv? Skulle studievägledaren själv göra en träffsäker prognos om hon blev ombedd att gissa en persons medelbetyg med utgångspunkt i en intervju?

Syftet med den här studien var att jämföra de percentilbedömningar som deltagarna hade gjort när de värderade beviset i det ena fallet och förutsåg det slutliga utfallet i det andra. Resultaten är lätta att sammanfatta: bedömningarna var identiska. Även om de båda frågeparen skiljer sig åt (det ena gäller beskrivningen, det andra handlar om studentens kommande akademiska resultat), behandlade försökspersonerna dem som om de vore likvärdiga. Som i fallet med Julie är förutsägelsen inte skild från värderingen av ett befintligt bevis – förutsägelsen matchar värderingen. Det här är kanske det bästa bevis vi har på att substitution spelar en roll. Personerna får i uppgift att förutspå ett utfall men värderar i stället ett befintligt bevis, utan att märka att frågan de besvarar inte är den från början ställda. Den här processen genererar med nödvändighet systematiskt snedvridna förutsägelser som helt saknar regression mot medelvärdet.

Under min militärtjänst i det israeliska försvaret var jag under en period knuten till en enhet som valde ut officerskandidater på grundval av intervjuer och fältprov. Det valda kriteriet var kadettens slutbetyg från officersskolan. Betygens validitet var omvittnat dålig (jag ska berätta mer om det längre fram). Enheten fanns kvar flera år senare när jag hade blivit professor och samarbetade med Amos i studien av intuitiva bedömningar. Jag hade bra kontakt med enheten och bad dem om en tjänst. Förutom att de skulle sätta betyg på kandidaterna på vanligt sätt bad jag dem att gissa vad de trodde att var och en av de blivande kadetterna skulle få för betyg från officersskolan. De samlade in några hundra sådana prognoser. De officerare som hade gjort prognoserna kände väl till betygssystemet och de ungefärliga andelarna för betygen A, B och så vidare bland eleverna. Resultaten var uppseendeväckande: den relativa frekvensen för A och B i prognoserna var nästan exakt densamma som i slutbetygen.

Resultatet är ett övertygande exempel på både substitution och styrkematchning. De officerare som gjorde prognoserna misslyckades helt med att skilja två uppgifter åt:

•    sitt vanliga uppdrag, det vill säga att utvärdera kandidaternas prestation under sin tid vid enheten

•    den uppgift jag gav dem, det vill säga att förutspå kadetternas framtida betyg.

De hade helt enkelt översatt de betyg de själva hade satt till officersskolans betygsskala och därmed gjort en omedveten styrkematchning. Än en gång hade det faktum att de hade bortsett från den (betydande) osäkerheten i prognoserna lurat dem att göra prognoser som var fullständigt ickeregressiva.

KORRIGERING AV INTUITIVA FÖRUTSÄGELSER

Låt oss återvända till Julie, vårt brådmogna läsgeni. Det rätta sättet att förutse hennes medelbetyg förklarade jag i det föregående kapitlet. Som för golfspelet under flera dagar och vikten och pianospelet kan vi här ställa upp en formel för de faktorer som styr läskunnighetsålder och universitetsbetyg:

läskunnighetsålder = gemensamma faktorer + faktorer som är specifika för läskunnighetsåldern = 100 procent
medelbetyg = gemensamma faktorer + faktorer som är specifika för medelbetyget = 100 procent

Till de gemensamma faktorerna hör genetiskt betingad fallenhet, familjens benägenhet att stödja akademiska intressen och allt annat som kan göra samma personer till brådmogna läsare som barn och till framgångsrika studenter som unga vuxna. Det finns naturligtvis många faktorer som kan påverka det ena utfallet men inte det andra. Julie kan ha tvingats att lära sig läsa av överambitiösa föräldrar, hon kan ha haft en olycklig kärleksaffär som drog ner hennes betyg, hon kan ha råkat ut för en skidolycka som tonåring och blivit lätt invalidiserad och så vidare.

Kom ihåg att korrelationen mellan de båda måtten – i det här fallet läskunnighetsålder och medelbetyg – är lika med andelen gemensamma faktorer bland de faktorer som är relevanta. Hur stor är den andelen, gissar du? Jag skulle gissa att den är som mest 30 procent. Om vi godtar den skattningen har vi allt vi behöver för att göra en förutsägelse fri från snedvridningar. Följande riktlinjer beskriver i fyra enkla steg hur man går till väga:

1.   Börja med att uppskatta genomsnittsbetyget.

2.   Fastställ det medelbetyg som svarar mot din värdering av beviset.

3.   Skatta korrelationen mellan beviset och medelbetyget.

4.   Om korrelationen är 0,30, justera din skattning genom att föra den till en punkt motsvarande 30 procent av avståndet mellan genomsnittet och ditt matchade medelbetyg.

Steg 1 för dig till utgångsläget, det medelbetyg du skulle ha förutspått om du inte hade fått veta något mer om Julie än att hon går sista året på universitetet. I frånvaro av information skulle du ha hållit dig till medelvärdet. (Detta är ungefär detsamma som att gå efter den relativa frekvensen för ekonomistudenter när man inte vet något om Tom W.) Steg 2 är din intuitiva förutsägelse som matchar din värdering av beviset. Steg 3 flyttar dig från utgångsläget mot din intuition, men hur långt du får gå bestäms av din skattning av korrelationen. Du hamnar, i steg 4, i en förutsägelse som visserligen är påverkad av din intuition men på ett mycket måttfullare sätt177.

Det här är en allmän metod för att göra förutsägelser. Man kan tillämpa den varje gång man vill förutsäga en kvantitativ variabel, till exempel medelbetyg, avkastning på en investering eller ett företags tillväxt. Metoden väger in din intuition, men dämpar den och återför den mot medelvärdet. När du har goda skäl att lita på din intuitiva förutsägelse – när det föreligger en stark korrelation mellan beviset och prognosen – kommer justeringen att bli liten.

Intuitiva förutsägelser måste korrigeras eftersom de inte är regressiva och därför är snedvridna. Anta att jag förutspår att var och en av golfspelarna i en turnering kommer att gå runt på samma antal slag dag 2 som dag 1. En sådan skattning tillåter ingen regression mot medelvärdet: de spelare som gjorde bra ifrån sig dag 1 kommer i genomsnitt att lyckas sämre dag 2 och de som lyckades dåligt kommer i de flesta fall att nå ett bättre resultat. När de ickeregressiva skattningarna till slut jämförs med det verkliga utfallet kommer vi att se att de är snedvridna. De är i genomsnitt överdrivet optimistiska för dem som lyckades bäst den första dagen och överdrivet pessimistiska för dem som fick en dålig start. Förutsägelserna är lika extrema som beviset. Och om du på liknande sätt utgår från bedrifter i barndomen för att förutspå universitetsbetyg utan att återföra dina skattningar mot medelvärdet kommer du oftast att bli besviken på de akademiska resultaten hos dem som lärde sig läsa tidigt, medan du blir glatt överraskad över betygen hos dem som lärde sig läsa sent. De justerade intuitiva skattningarna eliminerar snedvridningarna, vilket innebär att sannolikheten är ungefär lika stor för såväl över- som underskattning i förhållande till det sanna värdet. Du kommer att begå misstag även när dina skattningar är fria från snedvridningar, men felen blir mindre och gynnar varken höga eller låga utfall.

ETT FÖRSVAR FÖR EXTREMA SKATTNINGAR?

Jag använde tidigare Tom W för att illustrera skattningar av diskreta utfall, till exempel studieämnen eller tentamensresultat, vilka uttrycks genom att man skattar sannolikheten för att en viss händelse ska inträffa (eller i det fallet genom att rangordna utfall från det mest till det minst sannolika). Jag beskrev dessutom en procedur som motverkar vanliga snedvridningar vid diskreta skattningar, som underlåtenhet att väga in relativa frekvenser och okänslighet för informationens kvalitet.

De snedvridningar som drabbar skattningar som uttrycks på en skala, till exempel medelbetyg eller ett företags omsättningar, påminner om dem som konstateras när vi bedömer sannolikheten för ett visst utfall.

Justeringsmetoderna är också snarlika:

•    Båda innehåller en basskattning, den skattning du skulle hålla fast vid om du inte visste något om det aktuella fallet. I kategoriexemplet var basskattningen lika med kategorins relativa frekvens. I det numeriska exemplet är basskattningen det genomsnittliga utfallet i den berörda kategorin.

•    Båda rymmer en intuitiv skattning som uttrycker det tal som dyker upp i ditt medvetande, oavsett om det är en sannolikhet eller ett medelbetyg.

•    I båda fallen siktar du på att komma fram till en skattning som ligger någonstans mellan basskattningen och ditt intuitiva svar.

•    I det fall då det saknas intuitivt bevis är basskattningen det bästa du kan åstadkomma.

•    I det andra extremfallet kan du också hålla fast vid din första skattning, men bara om du anser att den fallspecifika informationen är ovidkommande.

•    I de flesta fall kommer du att finna anledning att betvivla att korrelationen mellan den intuitiva bedömningen och det verkliga utfallet är fullständig, vilket betyder att din slutgiltiga skattning hamnar någonstans mellan de båda polerna.

Den här metoden ger ett värde som ungefär överensstämmer med de troliga resultaten av en kvalificerad statistisk analys. Om det går bra kommer du att kunna göra skattningar fria från snedvridningar, rimliga sannolikhetsbedömningar och måttfulla skattningar av numeriska utfall. De båda metoderna är avsedda att motverka samma sorts snedvridningar: intuitiva skattningar har en benägenhet att bli alltför övertygande och extrema.

Att justera de intuitiva skattningarna är en uppgift för System 2. Det är mycket ansträngande att hitta en relevant referenskategori, göra en basskattning och värdera bevisets kvalitet. Ansträngningen är bara motiverad när det är mycket som står på spel och du är ytterst angelägen att inte göra fel. Dessutom bör du vara medveten om att tillvaron kan bli lite besvärligare om du justerar dina intuitioner. En egenskap hos skattningar som är fria från snedvridningar är att de bara tillåter förutsägelser av sällsynta eller extrema händelser när informationen är väldigt bra. Om du vill att dina förutsägelser ska vara någorlunda tillförlitliga kan du aldrig gissa på ett utfall som är ovanligt eller ligger långt från medelvärdet. Om dina skattningar är fria från snedvridningar kommer du aldrig att känna tillfredsställelsen av att pricka in extrema fall. Du kommer aldrig att kunna säga ”Det var väl det jag trodde!” när din bästa juridikstudent blir domare i Högsta domstolen eller när ett småföretag du bedömde vara väldigt lovande gör succé på marknaden. Med tanke på bevisens begränsningar kommer du aldrig att kunna förutspå att en framstående gymnasielev kommer att bli toppstudent vid Princeton. Av samma skäl kommer en riskkapitalist aldrig att komma fram till att sannolikheten för att ett nystartat företag ska lyckas bra är ”mycket hög”.

Invändningarna mot metoden att justera intuitiva skattningar måste tas på allvar, för frånvaron av snedvridningar är inte alltid det viktigaste. Att sträva efter skattningar fria från snedvridningar är berättigat om alla skattningsfel behandlas likadant oavsett riktning. Men det finns situationer då en typ av fel är mycket värre än andra. När en riskkapitalist söker efter nästa ”stora grej” är det betydligt värre att missa nästa Google eller Facebook än att investera måttligt i ett nystartat företag som senare går i konkurs. Målet för riskkapitalister är att pricka in extremfallen, även till priset av att överskatta framtidsutsikterna för många andra projekt. För en försiktig bankir som lånar ut stora summor kan risken att en enskild låntagare går i konkurs vara allvarligare än risken att tacka nej till potentiella kunder som plikttroget betalar räntor och amorteringar. I sådana fall kan ett extremt språkbruk (”mycket goda framtidsutsikter”, ”betydande konkursrisk”) vara motiverat eftersom det ger visst stöd även om informationen som bedömningarna bygger på är av begränsat värde.

För en förnuftigt sinnad person bör måttfulla skattningar som är fria från snedvridningar inte utgöra något problem. Varje rationell riskkapitalist vet ju att inte ens det mest lovande unga företag har särskilt stor chans att lyckas. Hon ser som sin uppgift att välja ut de mest lovande projekten bland dem som finns tillgängliga och känner inte att hon måste lura sig själv när det gäller framtidsutsikterna för ett företag hon tänker investera i. Och rationella personer som förutspår ett företags omsättning kommer inte att stirra sig blinda på ett visst tal – de bör väga in den osäkerhet som omger det mest sannolika utfallet. En rationell person kommer att investera mycket pengar i ett företag som med stor sannolikhet kommer att gå i konkurs om belöningen vid framgång är tillräckligt hög, men hon gör sig inga illusioner om chansen till framgång. Men nu är vi inte alla rationella och somliga av oss kan behöva den trygghet som snedvridna skattningar erbjuder för att inte bli handlingsförlamade. Om du väljer att lura dig själv genom att godta extrema skattningar är det däremot sunt om du är medveten om din last.

Den kanske främsta fördelen med de justeringsmetoder jag förordar är att de tvingar dig att fundera över hur mycket du egentligen vet. Jag tänker ta ett exempel som är välbekant inom den akademiska världen, men det har direkta kopplingar till andra områden i livet. En institution står i begrepp att anställa en ung professor och söker efter den som har bäst utsikter att vara produktiv i sin forskning. Efter rekryteringsgruppens gallring återstår två kandidater:

Kim blev nyligen färdig med sin doktorsavhandling. Hennes rekommendationer är enastående, hon höll en fängslande provföreläsning och imponerade på alla i intervjuerna. Hon har inga tyngre meriter när det gäller den vetenskapliga produktionen.

Jane har innehaft en postdok-tjänst under de senaste tre åren. Hon har varit mycket produktiv och har utmärkta forskningsmeriter, men hennes provföreläsning och intervjuer var inte så glansfulla som Kims.

Intuitivt föredrar vi Kim, för hon gjorde ett starkare intryck. Kom ihåg: vi tror att vi ser allt som finns att se. Men samtidigt konstaterar vi att vi vet mycket mindre om Kim än om Jane. Än en gång följer vi de små talens lag. Informationen om Kim är mycket knapphändigare än den om Jane och extrema utfall är sannolikare när urvalen är små. Turen spelar större roll för resultaten vid små urval och man bör därför justera mer i riktning mot medelvärdet när man skattar Kims framtida prestation. Om man tar hänsyn till det faktum att Kim sannolikt kommer att röra sig mer mot medelvärdet än Jane kanske du väljer Jane trots att du blev mindre imponerad av henne. I ett akademiskt sammanhang skulle jag rösta på Jane, men jag skulle behöva kämpa för att övervinna mitt intuitiva intryck att Kim är den mest lovande. Att följa intuitionen är mer naturligt och på något vis mer behagligt än att gå emot den.

Man kan enkelt föreställa sig liknande problem i andra sammanhang, som en riskkapitalist som väljer mellan två nystartade företag som verkar på olika marknader. Det ena företaget har en produkt vars efterfrågan kan uppskattas ganska exakt. Den andra kandidaten är mer spännande och intuitivt löftesrik, men framtidsutsikterna är osäkrare. Huruvida skattningen av det andra företagets framtidsutsikter fortfarande är mest attraktiv när osäkerheten vägs in är en fråga som måste övervägas noga.

REGRESSION OCH TVÅSYSTEMMODELLEN

Extrema skattningar och en vilja att förutse sällsynta händelser utifrån svaga bevis är manifestationer av System 1. Det är naturligt för det associativa maskineriet att generera skattningar som är lika extrema som de bevis de grundar sig på – det är så substitution fungerar. Och det är naturligt för System 1 att generera överdrivet trosvissa bedömningar eftersom trosvissheten, som vi vet vid det här laget, bestäms av hur sammanhängande den bästa berättelse är som man kan skapa av de tillgängliga bevisen. Men se upp: intuitionen kommer att generera skattningar som är alltför extrema och du riskerar att sätta alltför stor tilltro till dem.

Regression är problematiskt för System 2 också. Själva begreppet regression mot medelvärdet är främmande och svårt att förklara och förstå. Galton fick anstränga sig till sitt yttersta innan han fattade vad det rörde sig om. Många lärare i statistik ser med fasa fram mot lektionen då ämnet ska behandlas och deras studenter lyckas ofta bara skaffa sig en vag förståelse för det viktiga begreppet. Detta är ett exempel där System 2 behöver extra träning. Att matcha skattningar mot bevis är inte bara något vi gör intuitivt, det verkar också rimligt att göra så. Vi kan inte förstå regression genom erfarenheten. Även i de fall då en regression upptäcks, som vi såg i berättelsen om flyginstruktörerna, kommer den att ges en orsaksförklaring som nästan alltid är fel.

PÅ TAL OM INTUITIVA SKATTNINGAR

”Det här nystartade företaget har en mycket övertygande affärsidé, men vi kan inte räkna med samma utveckling framöver. Det dröjer länge innan de får ut en färdig produkt på marknaden och det finns mycket utrymme för regression.”

”Vår intuitiva skattning är mycket positiv, men den är antagligen för hög. Låt oss väga in styrkan hos våra bevis och justera skattningen mot medelvärdet.”

”Investeringen kan lyckas, men sannolikt gör den inte det. Vi bör inte räkna med att den ska bli ett nytt Google.”

”Jag läste en mycket positiv recension av varumärket. Men den kan ha varit en tillfällighet. Det är bättre om vi vänder oss till varumärken som har fått fler recensioner och väljer de som ser bäst ut.”