La politique étrangère

La rationalité est un concept central dans toutes les sciences sociales, et plus généralement dans toute la civilisation occidentale. Ce profond enracinement du paradigme rationaliste s’explique en partie par l’illusion de contrôle qu’il confère. Avancer que les comportements des acteurs sont rationnels implique qu’ils répondent à certaines régularités, qu’ils peuvent être expliqués par un observateur externe, voire qu’ils peuvent être modélisés, prédits et manipulés. Inversement, croire que les comportements sont gouvernés par le destin, le hasard ou des impulsions est profondément déstabilisant. Tant l’analyste que le décideur politique peuvent se sentir démunis face à un comportement interprété comme irrationnel (Mandel, 1984).

Le paradigme rationaliste se décline dans une vaste gamme d’approches théoriques (Kahler, 1998 ; Quackenbush, 2004). Ce que l’on appelle parfois la « théorie du choix rationnel » n’est pas une théorie spécifique, mais un ensemble de postulats sur lesquels reposent plusieurs approches théoriques. La théorie de la guerre comme diversion et celle des jeux bureaucratiques, par exemple, se fondent toutes les deux sur la théorie du choix rationnel.

Avant de présenter ces théories plus spécifiques dans les chapitres suivants, il convient d’abord, dans ce chapitre, de définir la notion de rationalité (partie 1), de relever les possibilités qu’offre la modélisation des comportements rationnels (partie 2), et de présenter quelques ajustements proposés en réponse aux critiques les plus fréquentes (partie 3).

Le choix rationnel

Le concept de rationalité revêt plusieurs significations. Dans le cadre de la théorie du choix rationnel, il ne faut pas entendre la rationalité comme la recherche du bien, du juste ou du vrai. Une décision de politique étrangère qualifiée de rationnelle n’est pas nécessairement celle qui découle d’un processus inclusif dans lequel des participants partagent un objectif commun et débattent en toute sincérité pour atteindre un consensus. Ce n’est pas non plus la décision qui permet effectivement à un acteur d’atteindre ses objectifs ou de contribuer au bien commun.

La théorie du choix rationnel avance plutôt que les comportements des acteurs, quels qu’ils soient, sont motivés par la maximisation de leur utilité subjective. Au premier regard, cette conception de la rationalité peut sembler plutôt modeste, voire banale : un acteur agit parce qu’il pense pouvoir profiter de cette action. Cette définition soulève néanmoins des questions méthodologiques, théoriques et politiques fondamentales.

De la micro-économie à la politique étrangère

L’idée que les comportements des acteurs sont guidés par la maximisation de leur utilité dérive de la micro-économie. En effet, la micro-économie ne dicte pas les procédures qu’un consommateur doit suivre avant d’acheter un bien, pas plus qu’elle ne se prononce sur le meilleur achat possible pour l’ensemble des consommateurs. Elle postule simplement qu’un consommateur achètera le bien qui représente, à ses yeux, le meilleur rapport entre les coûts et les bénéfices, compte tenu des informations dont il dispose.

Transposée à l’APE, cette forme de rationalité peut contribuer à expliquer la position des États dans les négociations internationales. Par exemple, les États qui plaident énergiquement pour l’adoption de normes environnement ales internationales sont souvent ceux qui en bénéficient le plus, c’est-à-dire ceux qui sont à la fois les plus vulnérables à la dégradation de l’environnement et les moins affectés par les coûts d’abattement. Les pays scandinaves ont un taux de cancer de la peau particulièrement élevé et celui-ci risque d’être accru par l’appauvrissement de la couche d’ozone qui absorbe une partie des rayons solaires ultraviolets. Ils ont également toujours eu une faible production de CFC, un des principaux gaz qui s’attaque à la couche d’ozone. Pas étonnant, dans ce contexte, que les pays scandinaves aient été à l’initiative du Protocole de Montréal sur la protection de la couche d’ozone. La France , par contre, était un important producteur et exportateur de CFC dans les années 1980 et a initialement freiné les négociations relatives à la protection de la couche d’ozone. On peut en déduire, selon une approche du choix rationnelle, que l’enthousiasme des pays scandinaves comme la résistance de la France en matière de protection de la couche d’ozone étaient guidés par leur rationalité plutôt que par des valeurs collectives ou des impératifs moraux (Sprinz et Vaahtoranta, 1994).

La théorie du choix rationnel considère ainsi que les acteurs fondent leurs comportements sur des analyses comparatives des coûts et des bénéfices associés aux différentes options en utilisant des critères qui leur sont propres. Sous cet angle, la notion de rationalité peut être décomposée en trois postulats distincts. Premièrement, les acteurs sont conscients d’effectuer des choix. Ils ne sont pas prisonniers de routines qui les conduisent à poursuivre aveuglément dans la même voie. Deuxièmement, les acteurs classent systématiquement les différentes possibilités d’action, incluant la possibilité de ne rien faire, par ordre de préférence. Cet ordre est à la fois complet et transitif, c’est-à-dire qu’il porte sur toutes les options et que les préférences sont cohérentes les unes avec les autres. Troisièmement, les acteurs agissent en conformité avec l’option qui maximise leur utilité, considérant les risques qui y sont associés et les informations dont ils disposent. Ils ne répriment pas leurs préférences simplement pour se conformer à la moralité ou à des traditions.

La théorie du choix rationnel, en micro-économie comme en APE, est également fondée sur le paradigme de l’individualisme méthodologique . Ce paradigme ne signifie pas, malgré son nom, que les acteurs du système sont des individus en chair et en os. La théorie du choix rationnel repose au contraire sur une rationalité désincarnée de tout mécanisme cérébral individuel. Le paradigme de l’individualisme méthodologique signifie plutôt que ce sont les propriétés et les interactions des acteurs qui permettent d’expliquer les phénomènes collectifs. Ce sont les préférences des agents économiques qui déterminent le point d’équilibre entre l’offre et la demande, comme ce sont les préférences des États qui déterminent les possibilités de coopération internationale. C’est une vision ascendante, des unités vers le système. Dans ce contexte, la rationalité peut être attribuée à des êtres humains, mais aussi à des entités agrégées, comme des firmes, des ministères ou des États, pour autant que ces unités soient considérées comme les composantes d’un système.

De plus, la théorie du choix rationnel ne formule aucun postulat sur les préférences des acteurs. Ce sont des théories plus spécifiques qui ajoutent à la rationalité un postulat sur l’utilité subjective. En micro-économie, l’utilité peut être définie en fonction du prix de vente, des délais de livraison, de la qualité du bien, de l’image de marque ou de tout autre facteur que les agents économiques jugent important. En politique étrangère, l’utilité peut notamment être définie en fonction d’une recherche de sécurité, de puissance, d’appuis électoraux ou de richesse des États.

La majorité des théories qui reposent sur la notion de choix rationnel considèrent que les acteurs partagent une même fonction d’utilité, définie par un critère unique, et une même tolérance au risque. Cependant, la théorie du choix rationnel n’impose nullement de telles contraintes. On peut imaginer une théorie fondée sur des utilités variables, multicritères et intégrant des motivations intrinsèques comme l’estime de soi. Les comportements fondés sur cette forme d’utilité, même ceux aux apparences altruistes ou autodestructeurs, n’en seraient pas moins égoïstes et rationnels.

La substituabilité des politiques étrangères

La théorie du choix rationnel suppose que les acteurs sont confrontés à des choix. En APE, l’idée de choix s’exprime généralement à travers la notion de substituabilité des politiques. Cette notion signifie que, lorsqu’un décideur est confronté à un problème, il peut y répondre par différentes politiques. Cela n’implique pas que toutes les politiques sont fonctionnellement équivalentes et qu’elles conduisent toute au même résultat. La substituabilité des politiques suppose plus simplement que, selon le contexte, un décideur peut recourir à une politique ou une autre pour faire face à un même problème. Par exemple, devant la menace croissante d’une puissance hostile, un premier État mobilisera son armée, un deuxième aura recours à ses alliés traditionnels, un troisième initiera une attaque préventive, un quatrième financera des opérations clandestines ciblées, un cinquième imposera des sanctions, et un sixième ne modifiera en rien ses politiques. Sous cette perspective, ce qui détermine la politique étrangère n’est pas tant le problème qui se pose que les conditions affectant la disponibilité de chaque politique et l’intérêt relatif de chacune (Most et Starr, 1984 ; Most et Siverson, 1987 ; Diehl, 1994 ; Palmer et Souchet, 1994 ; Palmer et Bhandari, 2000 ; Regan, 2000 ; Starr, 2000 ; Clark, 2001 ; Narizny, 2003 ; Milner et Tingley, 2011).

Pour qu’une politique soit déployée, elle doit d’abord être disponible. La disponibilité d’une politique est elle-même fonction des conditions matérielles, humaines et financières. Certains pays parmi les moins avancés n’ont pas de représentation permanente à Genève et peuvent difficilement exercer une socialisation efficace, sans parler de sanction ou d’intervention. Même les pays les plus puissants, qui sont déjà surexposés sur la scène internationale, peuvent ne plus avoir suffisamment de ressources disponibles pour recourir à certains instruments.

La disponibilité d’une politique dépend également des opportunités. Ainsi, pour qu’une guerre soit déclarée contre un pays avec lequel les tensions sont vives, mais stables et constantes, encore faut-il qu’un événement déclencheur se produise ou qu’un prétexte se présente pour la justifier. Or, dans une dynamique interactive, un État peut stratégiquement restreindre la gamme des politiques disponibles de son rival en se conformant à ses exigences (Leeds et Davis, 1997 ; Clark et Regan, 2003 ; Clark et Reed, 2005 ; Brulé et al., 2010 ; Mitchell et Thyne, 2010).

En d’autres cas, ce sont des normes sociales ou juridiques qui restreignent la disponibilité d’une politique. Une loi américaine, par exemple, interdit à l’administration d’offrir de l’aide économique aux pays qui ont une pratique répétée de violation des Droits de l’homme . Cette contrainte conduisit l’administration américaine à substituer l’aide économique par l’aide alimentaire, offerte de manière disproportionnée aux pays connus pour leur peu d’égards envers les Droits de l’homme (Brulé, 2006 ; Fariss, 2010).

La disponibilité d’une politique n’est pas une condition suffisante pour expliquer son utilisation. Encore faut-il qu’elle représente un intérêt relatif, c’est-à-dire qu’elle permette de réaliser davantage de gains, de minimiser davantage les pertes ou de réduire davantage les risques que les autres politiques disponibles. Dans une perspective rationaliste, ce n’est pas l’intérêt absolu d’une politique qui explique son utilisation, mais son intérêt relatif, mesuré par rapport aux autres options disponibles. Autrement dit, le choix rationnel n’implique pas seulement l’établissement d’un rapport coûts/avantages pour une politique donnée, mais la comparaison des différents rapports coûts/avantages associés à différentes politiques. Il peut même être rationnel de choisir une politique apparemment inefficace pour atteindre un objectif donné, si elle est résolument moins risquée ou moins coûteuse que les autres politiques disponibles.

David Baldwin explique ainsi le fait que les pays occidentaux recourent fréquemment aux sanction s économiques alors qu’il est bien établi qu’elles conduisent rarement à un changement de comportement du pays ciblé. Pour Baldwin, « si les possibilités d’action sont limitées à nager ou couler, conclure que la nage est une mode de transport notoirement inefficace pour se rendre d’un point à un autre n’est pas très pertinent » (1999, p. 84 et 2000). Les sanctions économiques seraient le dernier échelon acceptable pour exprimer la dénonciation d’un comportement avant de mettre en marche un engrenage incontrôlable. Bien qu’insatisfaisantes, il s’agit parfois de la meilleure politique disponible du point de vue du choix rationnel (Whang, 2011).

Des pans entiers de l’APE reposent sur cette idée de la substituabilité des politiques. C’est le cas, par exemple, des études comparant l’efficacité des divers instruments permettant d’effectuer le transfert d’une norme d’un État à un autre. Certaines indiquent que la socialisation est plus efficace que la coercition, alors que d’autres suggèrent l’inverse, que la manipulation des intérêts a plus d’impact que l’altération des idées. Bien que ces études aboutissent à des conclusions opposées, elles partagent néanmoins le postulat de la substituabilité des politiques puisqu’elles sous-entendent que les décideurs peuvent choisir entre la coercition et la socialisation pour atteindre un objectif donné (Berkowitz et al., 2003 ; Kelley, 2004 ; Meseguer, 2004 ; Schimmelfennig et Sedelmeier, 2004 ; Elkins et al., 2006 ; Cao, 2009).

La substituabilité des politiques permet en outre de résoudre certains problèmes méthodologiques. En effet, un chercheur qui souhaite identifier une relation de causalité généralisable à partir d’une analyse quantitative ne peut pas sélectionner les cas particuliers qu’il étudie en fonction de la valeur de la variable dépendante. Un tel biais dans la sélection des cas serait une faute méthodologique capitale. Ainsi, un projet qui vise à expliquer les recours aux sanction s financières par la France ne peut pas se limiter aux cas où de telles sanctions ont effectivement été imposées. Il doit également tenir compte des cas où des sanctions financières n’ont pas été imposées. Or, puisque les non-événements sont difficiles à identifier, le chercheur peut se tourner vers des politiques substituables et les intégrer à l’analyse comme points de comparaison. Si on considère que les sanction s commerciales sont substituables aux sanctions financières, examiner le contexte dans lequel la France a eu recours aux sanctions commerciales permet de réduire les biais dans la sélection des cas et de mieux identifier les conditions spécifiques qui expliquent le recours aux sanctions financières.

La substituabilité des politiques n’est, malgré tout, qu’un postulat. Le retrait d’une politique et le déploiement d’une autre peuvent être directement observés par l’analyste, mais rarement la décision elle-même qui a conduit à la substitution (Clark et Reed, 2005). Les rares études qui tentent de démontrer la substituabilité des politiques plutôt que de s’appuyer sur cette idée pour étudier un autre phénomène sont peu concluantes. Du moins, l’accroissement des ressource s consacrées à un instrument n’entraîne généralement pas une diminution des ressources consacrées aux autres instrument s, contrairement à ce que l’idée de substituabilité des politiques laisse entendre. Autrement dit, il n’y a pas de relation inverse dans l’utilisation des instrument s généralement considérés comme substituables. Il semble que les politiques étrangères sont souvent davantage complémentaires que substituables (McGinnis, 2000 ; Morgan et Palmer, 2000 et 2003 ; Clark et al., 2008 ; Parlmer et al., 2002 ; Starr, 2000 ; Arena, 2010).

La dissuasion rationnelle

La théorie du choix rationnel ne se limite pas à l’explication statique du comportement d’un acteur isolé de son environnement, mais permet également d’expliquer les interactions stratégiques entre les acteurs. Le terme « stratégie » signifie ici que les préférences des acteurs tiennent comptent des comportements attendus des autres acteurs, supposés eux aussi rationnels (Lake et Powell, 1999).

Cette dimension stratégique est au cœur même de la théorie de la dissuasion rationnelle. Cette théorie avance qu’un État peut garantir sa sécurité s’il parvient à convaincre ses adversaires qu’une attaque engendrerait des représailles telles que les coûts seront assurément supérieurs aux bénéfices qu’ils peuvent espérer en tirer. Sous cette perspective, l’accumulation illimitée d’armements nucléaire s s’inscrirait dans une logique défensive stratégique et rationnelle (Brodie, 1959 ; Snyder, 1961 ; Russett, 1967 ; Morgan, 1977 ; Jervis, 1989 ; Lebow et Stein, 1989 ; Archen et Snidal, 1989 ; Quackenbush, 2010).

Les décideurs américains se sont largement inspirés de la théorie de la dissuasion rationnelle lors de la guerre froide . Plusieurs étaient persuadés que leurs adversaires soviétiques agissaient de façon rationnelle et en déduisirent qu’une dissuasion crédib le et clairement exprimée pouvait être efficace. Le Secrétaire d’État américain John Foster Dulles a ainsi affirmé que « les Russes sont de grands joueurs d’échecs et leurs coups en politique internationale sont […] calculés avec autant de minutie et de précaution que s’ils s’agissaient de coups dans un jeu d’échecs » (Jervis, 1976, p. 310 ; voir aussi Kaplan, 1983 ; Snyder, 1991 ; Adler, 1992 ; Etheredge, 1992).

Cependant, l’acquisition de l’arme nucléaire par l’Union soviétique complexifia la stratégie américaine. Une attaque nucléaire de l’un ou l’autre des belligérants aurait assurément entraîné une riposte analogue, menant progressivement à une destruction mutuelle. Pour éviter ce scénario apocalyptique, les États-Unis mirent en œuvre une stratégie dérivée de la théorie de la dissuasion rationnelle : la stratégie du bord de l’abîme. La paix et la sécurité devaient être assurées par un niveau de risque et une capacité de rétorsion redoutablement élevés. Les États-Unis proposèrent ainsi à l’Union soviétique de conclure un traité restreignant les missiles antibalistiques puisque ce type d’armes défensives rend les attaques moins dangereuses et donc plus probables (Kahn, 1966).

Il ne fait aucun doute que les États-Unis se préparaient également à une guerre nucléaire limitée. Sous le prisme rationaliste, une guerre nucléaire limitée est probable, puisqu’au-delà d’un certain seuil, un des belligérants préférera la défaite à l’anéantissement. Comme le notait Raymond Aron dans Paix et Guerre entre les nations : « L’égalité approximative du crime et du châtiment augmente l’improbabilité de la guerre totale et, du même coup, les risques de guerre limitée » (1962, p. 409). Cependant, divulguer ouvertement une préférence pour une guerre limitée serait un comportement irrationnel puisqu’elle atténuerait la crédib ilité de la dissuasion.

La clé de la dissuasion rationnelle est précisément de communiquer une menace claire et de la rendre le plus crédib le possible. Plusieurs stratégies peuvent être utilisées à cette fin. L’une d’elles consiste à conclure formellement et publiquement des alliance s avec d’autres pays. Le caractère public d’un traité, comme celui de l’Atlantique Nord (OTAN ), accroît les probabilités que les alliés respectent leurs engagements de solidarité et ripostent aux attaques dirigées contre un de leurs membres. S’ils reniaient leurs engagements, leur réputation serait entachée, tant au niveau national qu’international.

Les débats théoriques récents sur la dissuasion rationnelle portent justement sur ces coûts réputationnels . Pour certains, il s’agit d’une condition nécessaire pour rendre une dissuasion efficace, sans quoi les menace s seront interprétées comme un bluff qui ne peut être pris au sérieux. Les démocrat ies bénéficieraient ainsi de leur vulnérabilité aux coûts réputationnels . Puisqu’un représentant élu qui cède devant l’ennemi risque d’être sanctionné aux prochaines élection s, ses menaces sont plus crédib les et sa dissuasion plus efficace que celles d’un dictateur fermement ancré au pouvoir. Pour d’autres analystes, cependant, les coûts réputationnels ne sont pas une condition nécessaire pour que la dissuasion prévienne les attaques de l’ennemi. La simple communication de menace s provoquerait des effets psychologiques, d’agressivité chez celui qui la formule et de peur chez celui qui la reçoit, ce qui rendrait la dissuasion efficace (Fearon, 1994 et 1995 ; Morrow, 2000 ; Danilovic, 2001 ; Schultz, 2001 ; Powell, 2003 ; Zagare, 2004 ; Tomz, 2007 ; Allen et Fordham, 2011 ; Ramsay, 2011 ; Tingley et Walter, 2011 ; Trager, 2011).

Chose certaine, les coûts réputationnels ne sont pas une condition suffisante et la transparence n’est pas une stratégie de dissuasion infaillible. Un adversaire peut estimer le coût réputationnel de la défection et offrir une compensation à l’élite au pouvoir pour qu’elle renie ses engagements et renonce à exécuter des mesures de rétorsion. À la suite de la guerre des Six Jours , par exemple, l’Égyp te signa la résolution de Khartoum affirmant la solidarité arabe face à l’ennemi israélien. Dix ans plus tard, Israël et les États-Unis parviennent à convaincre le président égyptien Sadate de renier la résolution de Khartoum et de s’engager dans un processus de paix. Les Accords de Camp David de 1978 valurent à Sadate l’expulsion de l’Égypte de la Ligue arabe et de vives contestations des groupes islamistes égyptiens. Ce coût réputationnel fut cependant compensé par la restitution du Sinaï et une aide massive des États-Unis, à la fois économique et militaire (Sechser, 2010).

Une autre stratégie pour accroître la crédib ilité de la dissuasion est de feindre l’irrationalité. En effet, un comportement de politique étrangère qui semble impulsif peut stratégiquement laisser croire aux adversaires que les représailles à d’éventuelles attaques risquent d’être disproportionnelles. C’est peut-être la stratégie de défense de la Corée du Nord qui, aux yeux des puissances étrangères, semble aussi hermétique qu’imprévisible.

Au nom de la crédib ilité de la dissuasion, certains analystes ont même imaginé un système de contre-attaque informatisé qui lance automatiquement des missiles nucléaire s à la moindre offensive, sans qu’aucun individu ne puisse intervenir et empêcher ces lancements : un logiciel programmant la fin du monde pour sauver l’humanité de cette éventualité (Schelling, 1966 ; Howard, 1971 ; Powell, 1990).

Durant la guerre froide , l’Union soviétique disposait effectivement d’un système semi-automatique de riposte nucléaire qui devait se déclencher si le commandement soviétique était décimé (Hoffman, 2009). Mais contrairement à la logique de la dissuasion rationnelle, l’Union soviétique n’a pas divulgué cette information aux Américains et n’en a donc pas profité pour accentuer son pouvoir de dissuasion. En fait, l’Union soviétique ne semblait tout simplement pas souscrire à logique de la dissuasion rationnelle que les États-Unis ont élaborée, tant pour définir leur comportement que pour anticiper ceux de leurs adversaires (Booth, 1979).

Le comportement soviétique durant la guerre froide n’est pas la seule anomalie empirique mise en relief par les critiques de la théorie de la dissuasion rationnelle. L’histoire abonde d’exemples de menace s claires et crédib les qui n’ont pas permis de dissuader des adversaires. La persistance du gouvernement japonais qui refusa de rendre sa reddition après le premier bombardement atomique d’Hiroshima est sans doute un des cas les plus frappants. Au-delà du simple cas japonais, la détention de l’arme atomique ne semble pas représenter une dissuasion particulièrement efficace dans la majorité des conflits qui opposent les puissances nucléaires aux pays qui ne disposent que d’armes conventionnelles. Plus généralement, si chaque guerre se solde par la défaite d’au moins une des parties, on peut en déduire que le vaincu a commis une erreur d’appréciation en s’engageant dans le conflit, sous-estimant la capacité de riposte de son adversaire ou surestimant sa propre capacité de riposte (Huth et Russett, 1984 ; Geller, 1990 ; Gartzke, 1999).

Les tenants de la théorie des choix rationnels expliquent généralement ces décalages entre la logique de la dissuasion rationnelle et les erreurs de politique étrangère par l’asymétrie d’information. Les acteurs ne peuvent identifier toutes les options ni les évaluer correctement puisqu’ils ne disposent pas d’informations complètes et suffisantes sur la détermination, les capacités, les contraintes et les motivations de leurs adversaires. Plus encore, les acteurs peuvent être trompés par des informations erronées transmises stratégiquement par leurs adversaires. La métaphore du jeu d’échecs évoquée par Dulles n’est donc pas tout à fait juste. Aux échecs, chaque joueur connaît précisément et avec assurance l’objectif ultime de son adversaire et l’ensemble de ses coups antérieurs. Ce n’est pas le cas en politique étrangère (Morrow, 1989 ; Bueno de Mesquita et Lalman, 1992 ; Fearon, 1995).

Même s’il est parfois possible pour les décideurs d’obtenir davantage d’informations, notamment par des activités d’espionnage, cette recherche d’informations est généralement coûteuse, longue et risquée. Il serait même irrationnel d’attendre de disposer de toutes les informations pertinentes pour agir. Un acteur rationnel doit raisonner par inférences bayésiennes, c’est-à-dire qu’il doit tenir compte des informations partielles dont il accumule progressivement et agir sur la seule base des diverses probabilités qu’il peut établir.

Ainsi, si le comportement belliqueux de Nasser en 1967 s’est soldé par une défaite humiliante et une perte de territoire pour l’Égyp te, ce n’est pas parce qu’il agit irrationnellement, mais plutôt parce qu’il agit dans l’incertitude à propos des politiques israéliennes (Mor, 1991). La théorie de la dissuasion rationnelle n’implique pas que les acteurs soient infaillibles et l’échec de certaines politiques de dissuasion ne l’invalide en rien.

La modélisation de la rationalité

Le principal atout de la théorie du choix rationnel, malgré la fragilité de ses postulats, est de permettre la modélisation des comportements. En effet, si les comportements répondent à une logique stable, prévisible et identifiable, il devient possible de les anticiper. C’est l’ambition de la théorie des jeux et de la théorie cybernétique.

La théorie des jeux

La théorie des jeux n’est pas stricto sensu une théorie. C’est plutôt une approche méthodologique qui peut être adaptée à toutes les théories rationalistes. Plus spécifiquement, la théorie des jeux est un mode de raisonnement déductif fondé sur la modélisation formelle. Le point de départ de la réflexion est toujours un ensemble de postulats sur les propriétés des acteurs, incluant généralement celui de la rationalité, que l’on introduit dans une matrice d’interactions. On déduit ensuite, à partir de ces « règles de jeu », le comportement stratégique de chacun des acteurs et l’issue de leurs interactions. Cette approche méthodologique, initialement développée en économie, a rapidement été intégrée à l’APE (Snyder et Diesing, 1977 ; Jervis, 1978 ; Stein, 1982 ; Axelrod, 1984 ; Snidal, 1985 ; Martin, 1992 ; Morrow, 1994).

Les matrices ci-après représentent des configurations simples ne mettant en scène que deux joueurs qui sont tous deux confrontés à un choix entre deux options. Leurs préférences sont exprimées sous forme numérique allant de 0 à 4. Ici, les joueurs cherchent à réaliser des gains absolus plutôt que relatifs, c’est-à-dire qu’ils tentent de se rapprocher le plus près possible de 4 sans nécessairement surpasser les gains réalisés par l’autre joueur. Il s’agit, autrement dit, de jeux à somme non nulle : l’addition des gains des deux joueurs ne donne pas nécessairement zéro. Néanmoins, les joueurs sont placés en contexte d’interdépendance. Les gains réalisés par un joueur dépendent non seulement de son propre comportement, mais également du comportement de l’autre joueur. Ils doivent donc agir stratégiquement, en tenant compte du comportement probable de leur vis-à-vis.

La configuration de l’harmonie est à la fois la plus simple et la moins fréquente. Dans cette matrice, tant le joueur A que le joueur B opteront nécessairement pour l’option 1. Peu importe le comportement de l’autre joueur, les gains auxquels peut mener la première option – 3 ou 4 – sont supérieurs aux gains auxquels peut mener la seconde option – 1 ou 2. Les joueurs étant rationnels, ils convergeront nécessairement vers le cadran supérieur gauche et obtiendront tous les deux un gain de 4. Ce cadran représente un équilibre de Nash, c’est-à-dire qu’aucun joueur n’a intérêt à dévier unilatéralement de sa stratégie. Ce cadran est également Pareto-optimal, c’est-à-dire qu’aucune autre combinaison ne peut accroître les gains d’un joueur sans faire baisser celui de l’autre. Puisque l’équilibre est optimal, cette configuration est qualifiée d’harmonie.

Figure 3. L’harmonie

Figure 4. La bataille des sexes

Le problème connu sous le nom de « bataille des sexes » représente une situation plus fréquente. Cette dénomination renvoie à un problème auquel peuvent se heurter les amoureux aux intérêts divergents lorsqu’ils doivent choisir une activité commune. Si l’un préfère assister à un spectacle d’opéra et l’autre à un combat de boxe, mais que tous les deux préfèrent avant tout passer une soirée ensemble, comment vont-ils trancher entre ces deux équilibres de Nash ? L’un d’eux imposera peut-être ses préférences en prenant l’initiative de réserver des places. Mais ils devront nécessairement se coordonner sans quoi ils risquent de se retrouver respectivement seuls à un spectacle qu’ils n’apprécient guère.

En APE, cette situation se présente dans plusieurs négociations portant sur l’établissement de normes et de standards techniques, notamment dans le domaine des télécommunications et du transport. Les pays francophones souhaitent sans doute que le français soit la langue officielle de l’aviation civile internationale, et les pays hispaniques préfèrent certainement l’espagnol. Mais tous veulent par-dessous tout que les pilotes et les tours de contrôle partagent une langue commune, même s’il ne s’agit pas de leur langue nationale. Une fois qu’une décision est prise, l’équilibre de Nash rend improbable une quelconque déviation unilatérale. La stratégie dominante sera maintenue même si elle ne conduit pas au résultat le plus favorable pour un joueur donné.

Figure 5. Le dilemme du prisonnier

Le problème du « dilemme du prisonnier » se caractérise par la présence d’un optimum qui n’est pas en équilibre stable. Contrairement à la guerre des sexes, les deux joueurs ont ici un intérêt commun, situé dans le cadran supérieur gauche, plutôt qu’une aversion commune. Cet optimum est cependant instable, puisque la stratégie dominante des deux acteurs est l’option 2, faisant du cadran inférieur droit le point équilibre.

C’est le problème qui se pose si deux criminels suspectés d’avoir commis un cambriolage sont interrogés séparément. En témoignant contre leur complice, ils peuvent espérer bénéficier d’un allégement de peine, sauf si leur complice témoigne également contre eux. L’issue optimale est qu’ils restent solidaires l’un de l’autre pour que les autorités policières n’aient aucune preuve accablante contre eux. Malgré cela, puisque chacun ignore comment répondra l’autre, ils risquent de se dénoncer mutuellement.

Pour passer d’une situation d’équilibre à une situation optimale, les joueurs pris dans un tel dilemme doivent collaborer entre eux et non pas simplement se coordonner. Il n’est pas suffisant qu’ils s’entendent à l’avance sur le comportement à adopter puisque, au moment de prendre la décision, ils auront un fort incitatif à trahir leur engagement dans l’espoir de réaliser des gains supplémentaires.

Pour surmonter cet incitatif, les deux joueurs doivent établir une relation de confiance . L’une des façons d’y parvenir est de répéter à plusieurs reprises l’interaction. L’itération permet à la fois de tirer des informations des expériences passées et de créer un incitatif à la coopération en fournissant une perspective future commune.

Lorsque l’itération n’est pas possible, les joueurs peuvent accroître leur niveau de confiance en ajoutant aux règles du jeu des mécanismes de surveillance et de sanction qui neutralisent les incitatifs à la défection. Un groupe mafieux qui liquide systématiquement toute la famille de ceux qui les ont trahis peut avoir confiance dans le fait que leurs membres interrogés par la police ne deviendront pas des délateurs.

Le dilemme du prisonnier est un problème typique des négociations de libre-échange et de celles sur la réduction des armements. Si la théorie économique de l’avantage comparatif conclut qu’une relation de libre-échange est bénéfique pour tous les partenaires, il n’en demeure pas moins que les signataires d’un traité de libre-échange ont un incitatif à ne pas respecter le principe de la réciprocité et à protéger leur marché intérieur tout en profitant d’un accès privilégié aux marchés étrangers. De même, si on admet que les puissances nucléaire s peuvent contribuer à la paix en réduisant simultanément leur arsenal, elles ont individuellement intérêt à laisser les autres se désarmer tout en dissimulant une partie de leur propre armement. Les régimes commerciaux et ceux sur la réduction de l’armement tentent de pallier ces incitatifs à la défection par des mécanismes d’arbitrage pour les premiers et des inspections pour les seconds.

Figure 6. La chasse au cerf

La chasse au cerf représente une situation similaire au dilemme du prisonnier, mais l’incitatif à la défection est motivé par une stratégie de prudence face au comportement incertain de l’autre joueur plutôt que par la perspective de gains additionnels. Si un chasseur craint que son compagnon de chasse fasse feu sur le premier lièvre qui se présente, faisant ainsi fuir tous les cerfs du bois, il sera incité à chasser lui aussi le petit gibier, moins intéressant, mais plus sûr.

C’est, par exemple, le problème auquel font face les pays créditeurs dans leur décision d’allouer un prêt à un pays dont la crédib ilité est incertaine. Ils peuvent refuser un tel prêt, qui serait néanmoins bénéfique pour tous, s’ils craignent que les autorités du pays débiteur adoptent des politiques de courtes vues, comme une dévaluation de leur devise suffisante pour entraîner une inflation marquée, plutôt que de veiller à leurs propres intérêts à long terme, en réformant les grandes structures économiques du pays. Autrement dit, la crainte d’une politique inflationniste peut faire fuir les investisseurs étrangers, appauvrissant tant les créanciers que les débiteurs.

Figure 7. La poule mouillée

Le jeu de la poule mouillée combine les caractéristiques des jeux précédents. Il présente deux équilibres, comme dans la guerre des sexes, mais un optimum instable, comme dans le dilemme du prisonnier et la chasse au cerf. C’est un jeu qui rappelle une scène célèbre du cinéma américain : deux adolescents téméraires mesurent leur courage respectif en lançant leur voiture l’une contre l’autre, pour voir lequel d’entre eux sera le plus poltron et la fera dévier en premier. C’est une situation familière aux négociateurs qui ont intérêt à se montrer plus intransigeants qu’ils ne le sont en réalité, dans l’espoir que leurs interlocuteurs cèdent les premiers, mais au risque de faire achopper les négociations.

Le jeu de la poule mouillée et les autres modèles présentés ici ne sont que des configurations de base. Les modèles développés en APE sont de plus de plus en plus complexes. Certains mettent en scène plusieurs séries d’actions situées dans le temps, d’autres reconnaissent que les joueurs n’ont accès qu’à une information imparfaite ou incomplète, et d’autres encore multiplient le nombre de joueurs, d’enjeux et d’options possibles (Kim et Bueno de Mesquita, 1995 ; Wagner, 2000 ; Reiter, 2003).

Cela dit, la théorie des jeux demeure une approche méthodologique controversée. Elle catalyse un débat épistémo logique qui porte plus généralement sur l’ensemble du paradigme rationaliste. Pour certains, minoritaires, la théorie des jeux permet de mettre en relief des mécanismes causaux invisibles, mais bien réels. Même si les acteurs n’ont pas nécessairement conscience de toutes les règles dans lesquelles ils opèrent, ce sont bien ces règles qui gouvernent leurs comportements. Pour une majorité d’analystes, toutefois, le postulat rationaliste au cœur de la théorie des jeux n’est qu’une fiction. Les humains et les organisations ne sont pas des acteurs purement rationnels et ne réagissent pas aux règles comme le feraient des ordinateurs (McDonald, 2003).

Même au sein de ce groupe majoritaire qui considère la rationalité comme une fiction, les dissensions sont vives. Un premier sous-groupe juge qu’il s’agit d’une fiction nuisible, qui éloigne la recherche en APE des véritables processus de prise de décision. Selon eux, plus la théorie des jeux se complexifie, plus elle devient inepte et inutile (Green et Shapiro, 1994 ; Walt, 1999). D’autres, par contre, considèrent que la fiction rationaliste de la théorie des jeux peut être utilisée avec profit pour générer des hypothèses et formuler des prédictions. Même si les acteurs internationaux ne sont pas réellement rationnels, ils se comportent comme s’ils l’étaient. La théorie des jeux aurait ainsi une certaine valeur prédictive même si elle est dépourvue de valeur descriptive ou compréhensive. Après tout, les sciences physiques elles-mêmes se sont développées en intégrant des variables qui n’existent pas dans le monde empirique, comme le vide parfait (Bueno de Mesquita, 1981, 1984 et 1998 ; Archen et Snidal, 1989 ; Quackenbush, 2004).

Tous reconnaissent cependant qu’une modélisation, en physique ou APE, n’a qu’un faible intérêt si toutes les variables de ses équations correspondent à des idéaux fictifs (Lebow et Stein, 1989). C’est justement pour rendre la théorie des jeux plus conforme aux procédures de prise de décision réelles que certaines analystes assouplissent le postulat de la rationalité des joueurs. Ils recourent plutôt au postulat de la « rationalité limitée, tel que défini par la théorie cybernétique » (Bendor et Hammond, 1992 ; Bueno de Mesquita, 1997).

La théorie cybernétique

Pour Herbert Simon, l’environnement est trop complexe et les capacités humaines trop limitées pour que le postulat d’une rationalité pure soit réaliste (1982). Les acteurs sont incapables d’accéder à toutes les informations pertinentes, d’assimiler toutes les informations qu’ils reçoivent, d’identifier toutes les possibilités d’action qui s’offrent à eux et d’évaluer toutes les conséquences d’une éventuelle action. Par conséquent, il est illusoire de croire que leurs comportements maximisent leur utilité. Simon considère que les acteurs manœuvrent à travers la complexité du monde réel en choisissant plus simplement la première option satisfaisante. C’est ce qu’il appelle la « rationalité limitée », un ajustement à la théorie du choix rationnel qui lui valut le prix Nobel d’économie de 1978.

Plusieurs théories se sont édifiées sur cette notion de rationalité limitée, dont la théorie des corbeilles évoquée au chapitre précédent, le modèle org anisationnel abordé dans un prochain chapitre et la théorie cybernétique , présentée ici. Ces trois théories peuvent être mobilisées pour l’analyse du processus décisionnel de n’importe quelle forme d’organisation. La théorie cybernétique est tout aussi pertinente pour analyser le comportement d’une firme que celui d’un État (March et Simon, 1958). En matière de politique étrangère, elle a particulièrement été développée par John Steinbruner dans son ouvrage sur la coopération nucléaire (1974 et 1976).

La théorie cybernétique en APE est plus spécifiquement composée de trois postulats. Le premier avance que les décideurs considèrent une politique satisfaisante si elle permet de maintenir certains facteurs fondamentaux à l’intérieur de paramètres tolérables. Ces facteurs fondamentaux sont directement liés à leur survie politique. Il peut s’agir, par exemple, de maintenir un taux d’appui populaire au-delà de 40 %, une primauté militaire dans une région donnée ou un taux de croissance du produit intérieur brut à plus de 2 %. Pour les décideurs, se concentrer ainsi sur un nombre limité de facteurs fondamentaux simplifie grandement leur recherche d’informations.

Le deuxième postulat est que les politiques sont maintenues en place par les décideurs jusqu’à ce qu’un de ces facteurs fondamentaux sorte des paramètres de tolérance. C’est uniquement lorsqu’une telle rétroaction négative est perçue que les décideurs savent que leur politique n’est plus satisfaisante et qu’ils doivent l’ajuster. Inversement, si la rétroaction demeure positive ou qu’aucun stimulus n’est perçu, la politique en place est maintenue, même si elle est en réalité sous-optimale. Ce mode de raisonnement favorise la continuité et peut expliquer que la politique étrangère soit relativement stable et constante (Volgy et Schwarz, 1991 ; Sylvan et Majeski, 2009).

Le troisième postulat de la théorie cybernétique est que, lorsqu’une rétroaction est négative et qu’un ajustement s’impose, les décideurs ne prennent pas leur décision en comparant systématiquement toutes les politiques disponibles, mais en examinant les différentes politiques les unes après les autres, au fur et à mesure qu’elles se présentent à eux. Dans ce processus séquentiel, ils retiennent la première politique qui leur permet de ramener les facteurs fondamentaux à l’intérieur des paramètres de tolérance. Ils n’ont donc pas besoin de calculer le rendement spécifique d’une politique particulière, et encore moins d’effectuer des analyses comparatives complexes. Ils ne font que s’adapter pour assurer leur survie (Lindblom, 1959).

Une illustration de l’adaptation cybernétique serait le positionnement d’un chat par rapport à un foyer. La décision d’un chat de faire une sieste à un endroit plutôt qu’un autre dépend d’un nombre limité de facteurs fondamentaux, dont l’étendue du champ de vision et la chaleur. Si le chat dort à trois mètres d’une cheminée, il y restera jusqu’à ce que le feu soit moins ardent et que la température ressentie par son épiderme descende sous son seuil de tolérance. Il s’adaptera alors en marchant dans différentes directions jusqu’à ce qu’il trouve une nouvelle position satisfaisante, suffisamment près du foyer pour être réchauffé, mais pas trop pour éviter d’être brûlé. Un chat n’a certainement pas la rationalité que la théorie du choix rationnel attribue aux acteurs : il ne calcule pas le rayon optimal de radiation d’un feu en fonction de sa puissance calorifique. Néanmoins, il parvient toujours à s’adapter et à trouver une localisation satisfaisante.

De façon similaire, les membres du Congrès américain ne calculent pas chaque année les sommes optimales à consacrer aux dépenses militaires. Ils ajustent plutôt les crédits militaires progressivement à partir des sommes octroyées l’année précédente. Pour savoir s’ils doivent les augmenter ou les diminuer, ils tiennent compte de certains facteurs fondamentaux, comme l’évolution de l’armement des principaux rivaux des États-Unis et de l’évolution des recettes fiscales. Si ces facteurs fondamentaux demeurent dans le cadre des paramètres acceptables, le budget octroyé l’année précédente sera vraisemblablement reconduit pour une année supplémentaire (Ostrom, 1977 ; Marra, 1985).

Contrairement à la théorie du choix rationnel , la théorie cybernétique reconnaît ainsi que les décideurs peuvent choisir et maintenir des politiques qui ne maximisent pas leur utilité. D’un autre côté, compte tenu de la complexité de l’environnement et des capacités limitées des acteurs, ce mode de raisonnement fondé sur la satisfaction n’est pas irrationnel. Les acteurs orientent leurs comportements en fonction de leurs objectifs et parviennent à s’adapter à leur environnement de façon relativement rapide et efficace. Ils n’ont pas besoin d’être en mesure d’expliquer la continuité ou les changements de leur environnement pour s’y adapter. Ils doivent simplement se concentrer sur des paramètres particuliers (Jones, 1999).

Cette régularité permet à l’analyste de décoder les règles de comportement en observant attentivement les variations dans les réactions des gouvernements (Kuperaman, 2001). Les règles déduites peuvent ensuite être intégrées dans un modèle visant à prédire, avec plus ou moins de succès, le comportement des États. Par exemple, dans un article remarqué, Charles Ostrom et Brian Job (1986) ont modélisé les décisions américaines de recourir à la force armée à partir de seulement dix paramètres, trois concernant l’environnement international, quatre concernant le contexte national et trois concernant la situation politique du président. En combinant ces dix paramètres, ils sont parvenus à expliquer 71 % des recours à la force et 79 % des non-recours à la force, laissant présager un taux de succès similaire pour anticiper le futur. La modélisation cybernétique est certes imparfaite, mais elle semble mieux correspondre aux réalités empiriques que la modélisation fondée sur une pure rationalité.

Rationalité et cognition

Les principales failles de la théorie du choix rationnel concernent moins les contraintes environnementales liées à l’accès à l’information que les contraintes intrinsèques aux acteurs eux-mêmes. En effet, il arrive fréquemment que des défaillances organisationnelles et des biais cognitifs conduisent à des erreurs de perception et d’interprétation. Ces erreurs font, à leur tour, dévier le comportement des acteurs des prédictions formulées par la théorie du choix rationnel (Mintz et Geva, 1997 ; Geva et al., 2000 ; Green et Shapiro, 1994).

L’attaque-surprise de Pearl Harbor en est sans doute l’une des meilleures illustrations. Des agents américains disposaient bel et bien d’informations indiquant que le Japon s’apprêtait à passer à l’offensive. Ces informations, cependant, ne furent pas traitées et interprétées correctement. L’armée américaine anticipait tant et si bien des actes de sabotages qu’elle ne s’est pas préparée adéquatement à une attaque aérienne (Wohlstetter, 1962).

Cela étant, les tenants de la théorie du choix rationnel se sont révélés particulièrement réactifs dans les dernières décennies. Plutôt que d’ignorer les critiques cognitivistes , ils ont sans cesse complexifié leurs modèles pour qu’ils correspondent davantage aux réalités empiriques. La théorie des perspectives et la théorie poliheuristique résultent toutes les deux de croisements entre la théorie du choix rationnel et les théories cognitivistes.

La théorie des perspectives

Le béhaviorisme est l’étude des comportements directement observables. Venant de la psychologie, ce courant a contribué aux recherches en économie et, par ce biais, exerce maintenant une influence croissante en APE (Bueno de Mesquita et McDermott, 2004 ; Mercer, 2005 ; Mintz, 2007 ; Elms, 2008 ; Walker et al., 2011).

Sur le plan méthodologique, le béhaviorisme repose généralement sur des expériences en laboratoire. Des sujets sont placés devant un scénario fictif selon lequel ils doivent opérer un choix entre plusieurs options possibles. On leur demande, par exemple, s’ils préfèrent avoir 40 % de chance de gagner 1 000 dollars ou 80 % de chances de gagner 200 dollars. Leurs décisions sont ensuite analysées en fonction de diverses variables et des conclusions théoriques en sont tirées (Boettcher, 2004).

L’une des principales contributions du courant béhaviori ste à l’APE est la théorie des perspectives développée par Daniel Kahneman et Amos Tversky (1979). En effet, leurs travaux démontrent de façon convaincante que la majorité des individus ont une aversion particulière pour les pertes. La douleur psychologique qu’inflige une perte est supérieure au plaisir que génère un gain équivalant. Ainsi, lorsque l’on propose aux sujets d’une expérience d’être placés dans une situation où ils ont 50 % de chance de gagner vingt dollars et 50 % de chance de perdre vingt dollars, la majorité préfèrent ne prendre aucun risque et ne pas participer au jeu. Autrement dit, les vingt dollars déjà possédés, mais qui risquent d’être perdus ont une valeur supérieure aux vingt dollars qui ne sont pas possédés mais qui peuvent être gagnés. C’est donc le critère de la possession qui, en dehors de tout calcul rationnel, fait varier la valeur attribuée à un objet. Le simple fait d’acquérir un objet, aussi futile soit-il, augmente sa valeur aux yeux de son propriétaire par rapport aux objets équivalents qu’il souhaite néanmoins acquérir.

La théorie des perspectives avance également que, lorsque les individus sont confrontés à une perte, la majorité d’entre eux sont prêts à prendre plus de risques pour éviter cette perte qu’ils ne le feraient en situation de gain. Ils préfèrent relever un pari impliquant une probabilité de 75 % de perdre 100 dollars et 25 % de ne rien perdre du tout qu’une perte assurée de 75 dollars. Par contre, ils préfèrent encaisser 75 dollars plutôt que de relever un pari impliquant 75 % de chance de gagner 100 dollars et 25 % de chance de ne rien gagner. Cette variation de la tolérance au risque a été confirmée par de multiples expériences avec des sujets humains de différentes cultures, par la recherche en imagerie neurologique et même par des expériences avec des singes capucins.

La théorie des perspectives soulève des implications majeures pour la politique étrangère. Qu’il s’agisse de commerce international, de prestige, d’effectifs militaires, ou de la délimitation des frontières nationales, les gains doivent être presque deux fois supérieurs aux pertes encourues pour les compenser. Cette aversion pour les pertes explique qu’un État soit davantage prêt à se battre pour la défense d’un territoire que pour le conquérir, qu’il accepte des coûts plus élevés pour maintenir un régime international que pour le créer, qu’il investisse davantage pour pallier le déclin de sa réputation que pour la valoriser, et qu’il consacre plus d’efforts à contrer la formation de coalitions hostiles qu’à renforcer ses propres alliance s. Plus généralement, l’aversion pour les pertes peut contribuer à expliquer la tendance des grandes puissances à la surextension, à la suractivité et à la surexposition, minant paradoxalement leur chance de survie (Snyder, 1991 ; Levy, 1992 et 1997).

Sachant que les autres acteurs internationaux sont soumis à la même aversion pour les pertes, un État peut en tenir compte pour développer stratégiquement sa politique étrangère. La théorie des perspectives indique que dissuader à l’avance un État étranger pour empêcher une action est un investissement plus rentable que le recours à la contrainte pour le forcer à faire marche arrière. Compte tenu de l’aversion pour les pertes, il s’avère également plus efficace d’exercer une coercition en utilisant des menaces plutôt que des promesses (Davis, 2000 ; Schaub, 2004 ; Butler, 2007).

Ces théorèmes ne sont valides, toutefois, que si la cible de la politique étrangère se situe à un point de référence neutre. Si, au contraire, la position de l’adversaire se situe déjà dans le domaine des pertes, la dissuasion peut s’avérer inefficace pour l’autre partie. Elle n’a pu contenir ni le revanchisme français de 1914 qui n’avait toujours pas digéré la perte de l’Alsace et de la Lorraine, ni le fascisme italien nostalgique de l’Empire romain, ni le nazisme allemand s’édifiant sur l’humiliation du traité de Versailles.

Le point de référence permettant d’évaluer les gains et les pertes n’est pas stable. Il est fortement influencé par le cadrage du problème. Pour démontrer ce phénomène, Tversky et Kahneman ont effectué une expérience avec un groupe d’étudiants. Ils leur ont présenté un scénario fictif selon lequel ils sont les dirigeants d’un pays comptant 600 personnes, toutes menacées par un nouveau virus. Ils leur ont ensuite demandé de choisir entre deux politiques : une première qui a une probabilité de 100 % de sauver 200 personnes, mais d’entraîner la mort de 400 personnes, et une deuxième ayant une probabilité de 33 % de sauver les 600 personnes infectées et une probabilité de 66 % de ne sauver personne. Lorsque ces deux possibilités ont été formulées en termes de nombre de personnes sauvées, 72 % des étudiants ont préféré la première plus prudente. Par contre, lorsque les mêmes options ont été présentées en termes de nombre de morts risquant d’être entraînés, 78 % des répondants ont préféré la deuxième plus risquée. Percevoir un verre à moitié vide ne suscite donc pas le même niveau de tolérance au risque que de le percevoir à moitié plein, même s’il s’agit objectivement du même contenu (Tversky et Kahneman, 1981 ; Kahneman et Tversky, 1984 ; Mintz et al., 1997 ; Mintz et Redd, 2003 ; Taylor-Robinson et Redd, 2003 ; Perla, 2011).

Le point de référence permettant d’évaluer les gains et les pertes varie en fonction de l’interprétation des événements passés et des aspirations futures. De façon générale, les nouveaux gains sont rapidement intégrés et font rehausser le point de référence, créant un retour au niveau d’équilibre. Les retirer serait alors interprété comme une perte sur la base de ce nouveau point de référence plutôt que comme la suppression de gains réalisés anté rieurement. Inversement, la majorité des individus s’acclimatent lentement et difficilement aux pertes. Le point de référence peut ainsi être celui d’un lointain passé glorieux, voire celui d’un passé fantasmé.

Les variations du point de référence d’un État à un autre peuvent expliquer des différences fondamentales dans leur politique étrangère. La théorie des perspectives peut notamment expliquer que certains États souhaitent modifier le statu quo pour récupérer ce qu’ils perçoivent comme des pertes, alors que d’autres, tout aussi puissants ou faibles, œuvrent pour le maintenir afin de préserver leurs acquis. Les premiers se comportent comme le prédit la version offensive du réalisme (Schweller, 1994 ; Mearsheimer, 2001 et 2009 ; Layne, 2002 ; Sweeney et Fritz, 2004), alors que les seconds se conforment aux thèses de la version défensive du réalisme (Waltz, 1979 ; Gilpin, 1987 ; Grieco, 1990 ; Levy et Thompson, 2005 ; Kirshner, 2012).

L’agression, l’opportunisme, le rééquilibrage et le suivisme peuvent donc coexister dans un même système international. Lors de la Seconde Guerre mondiale , par exemple, les grandes puissances n’étaient pas animées par les mêmes motivations : les États-Unis cherchaient à préserver le statu quo alors que l’Allemagne souhaitait le renverser. De même, parmi les faibles puissances, certains comme la Hongrie ont tenté de profiter de la situation pour prendre de l’expansion, alors que d’autres comme la Turqu ie n’ont voulu que sauvegarder leur territoire. La recherche du statu quo n’est pas l’apanage des puissants, pas plus que le révisionnisme n’est celui des faibles. L’une des clés permettant de comprendre ces variations est de resituer les points de référence comme le perçoivent les décideurs pour évaluer leur vision des gains et des pertes (Jervis, 1976 et 1994 ; Snyder, 1991 ; Stein et Pauly, 1993 ; McDermott, 1998).

Les variations du point de référence peuvent également expliquer les variations dans la politique étrangère d’un même pays. Franklin D. Roosevelt , par exemple, se résolut à prendre le risque politique de défendre l’entrée des États-Unis dans la Seconde Guerre mondiale à partir du moment où il perçut ce conflit comme une menace immédiate pour les intérêts américains plutôt qu’une opportunité pour consolider la position stratégique des États-Unis (Farnham, 1997). Truman , quant à lui, prit davantage de risque en Europe avec la création d’une alliance régionale centralisée autour de l’OTAN , face à la pression communiste, que dans la région du pacifique, dont la sécurité moins menacée était fondée sur des alliances souples et bilatérales (Hemmer et Katzenstein, 2002 ; He et Feng, 2012). Plus récemment, lors de la guerre du Golfe , George H. W. Bush fut prêt à lancer une opération militaire pour défendre les intérêts américains au Koweït, mais pas pour en tirer des gains additionnels et poursuivre son avancé jusqu’à Bagdad (McDermott, 2004). Puis, lors de la dissolution de la Yougoslavie, Slobodan Milošević fut bien davantage résolu à se battre pour conserver le Kosovo, qu’il situait dans le domaine des pertes potentielles, que lors de la guerre de Bosnie, qui visait plutôt à assurer des gains à la Serbie (White, 2000).

Il est bien entendu possible que tous les belligérants se situent dans le domaine des pertes et soient particulièrement déterminés à défendre leurs intérêts. Plus ils s’y investissent, plus les pertes s’accroissent et plus leur détermination s’affermit. Les dirigeants politiques peuvent alors persister dans une politique étrangère qui mine objectivement leurs intérêts. Des chercheurs ont ainsi mobilisé la théorie des perspectives pour expliquer des comportements défiant la rationalité, comme l’intervention américaine au Vietnam alors que ce pays ne menaçait pas les intérêts fondamentaux des États-Unis (Taliaferro, 2004), l’appui rhétorique de l’Union soviétique à la Syrie alors que Moscou redoutait une guerre au Moyen-Orient (McInerney, 1992) ; et le différend commercial entre le Japon et les États-Unis sur l’exportation des pommes, qui a persisté pendant plus de 30 ans alors que ce marché représente moins de 15 millions de dollars (Elms, 2004). C’est ce que les économistes béhaviori stes appellent l’illusion des coûts irrécupérables, soit l’enlisement dans un problème dans l’espoir vain de récupérer les investissements perdus.

En somme, la théorie des perspectives invalide l’idée d’une fonction d’utilité linéaire, telle que la conçoit généralement la théorie du choix rationnel. Cela étant, il est possible d’intégrer la théorie des perspectives dans le cadre rationaliste si la fonction d’utilité est conçue comme non linéaire. Il est même possible d’intégrer la théorie des perspectives à la modélisation formelle de la théorie des jeux (Berejikian, 2002).

La méthode béhaviorale fondant la théorie des perspectives prête néanmoins le flanc à la critique. Plusieurs soulignent que des résultats obtenus en laboratoire ne correspondent pas nécessairement aux réalités de la politique étrangère. Dans l’environnement complexe des relations internationales, les options ne sont pas présentées aussi clairement qu’elles le sont en laboratoire. Les gains et les pertes se situent sur des échelles différentes qui ne peuvent être ramenées à un dénominateur commun. Même s’ils le pouvaient, les probabilités de succès et d’échec demeurent généralement de vagues estimations (Levy, 1992 ; O’Neill, 2001).

Plus encore, attribuer les biais cognitifs des individus à l’ensemble d’un État peut être une forme d’anthropomorphisme, ou encore une exagération de la prépondérance du chef de gouvernement. La majorité des décisions de politique étrangère résultent d’un groupe ou de l’ensemble d’une organisation. À cette critique, la théorie des perspectives peut répondre que, même si les mécanismes de prise de décisions au sein d’un État ne correspondent pas aux processus cognitifs individuels, les résultats observés sont similaires (Mercer, 2005). C’est, en quelque sorte, la réplique habituelle de la théorie du choix rationnel qui insiste sur la validité des prédictions plutôt que sur la véracité des processus présumés.

La théorie poliheuristique

La théorie poliheuristique , développée au début des années 1990 par Alex Mintz et ses collègues, a la particularité de viser tant la validité des résultats que celle des processus. Autrement dit, elle souscrit à la fois à l’épistémo logie instrumentale de la théorie du choix rationnel, centrée sur la formulation de prédictions, et à l’épistémologie réaliste des théories cognitivistes, centrée sur l’identification des processus réels qui gouvernent la prise de décision. Cette réconciliation de la théorie du choix rationnel avec le réalisme scientifique est un défi de taille : la théorie poliheuristique doit maintenir une certaine parcimonie permettant des généralisations tout en étant suffisamment complexe pour s’adapter aux particularismes (Mintz, 1993 ; Mintz et al., 1994 et 1997 ; Mintz et Geva, 1997 ; Redd, 2002).

Pour atteindre ce double objectif, la théorie poliheuristique avance que les décideurs politiques recourent à plusieurs (poly) raccourcis cognitifs (heuristiques). Contrairement à la théorie du choix rationnel et à la théorie cybernétique qui postulent que les décideurs répondent à une seule règle, la maximisation de l’utilité pour la première et la satisfaction des facteurs fondamentaux pour la deuxième, la théorie poliheuristique soutient qu’ils ont recours à différents procédés pour fonder leurs décisions.

Plus précisément, la prise de décision conceptualisée par la théorie poliheuristique est scindée en deux phases successives qui reposent sur des procédés cognitifs distincts. La première consiste à éliminer, dès le départ, les options clairement inacceptables. Cette phase est dite dimensionnelle parce que les décideurs se concentrent sur une seule dimension à la fois, pour identifier les options inacceptables. Ils peuvent, par exemple, éliminer toutes les options qui ne seraient pas appuyées par la majorité des électeurs et ensuite, toutes celles qui favorisent leurs adversaires politiques.

Les dimensions retenues varient d’un décideur à un autre, mais elles incluent toujours celles qui sont directement liées à leur survie politique. Lors de la crise iran ienne des otages, le président Carter aurait ainsi éliminé toutes les options qui ne permettaient pas une libération rapide des otages américains, sachant que leur captivité prolongée handicaperait sa réélection. La négociation, les frappes aériennes punitives, le blocus maritime et l’attente passive ont rapidement été éliminés et la réflexion s’est concentrée sur l’ampleur de la mission de sauvetage (Brulé, 2005).

Cette première phase du processus de prise de décision est non compensatoire , c’est-à-dire que les faiblesses d’une option dans une dimension ne peuvent être compensées par ses forces dans les autres dimensions. Une option politiquement défavorable sera éliminée, même si elle permet de tirer des gains économiques ou militaires importants. Par exemple, en mars 2003, la Turqu ie s’est opposée au déploiement de 62 000 soldats américains sur son sol pour préparer une attaque contre l’Irak même si les États-Unis offraient en compensation une aide économique de plus de 30 milliards de dollars et un appui diplomatique dans le processus d’adhésion à l’Union européenne. Aucun gain économique, militaire ou diplomatique ne pouvait apparemment compenser une mesure aussi politiquement défavorable (Mintz, 1993 et 2004 ; Christensen et Redd, 2004 ; Kesgin et Kaarbo, 2010).

Lorsque le nombre d’options envisageables est significativement réduit, les décideurs passent à la deuxième phase du processus de prise de décision. Cette deuxième phase correspond davantage aux logiques de la théorie du choix rationnel : elle est à la fois inter-dimensionnelle et compensatoire. Les différentes dimensions sont examinées simultanément et les forces de l’une peuvent compenser les faiblesses d’une autre. Ces comparaisons exigent assurément plus de réflexion et d’information que la première phase, mais cet exercice est néanmoins possible puisque le nombre d’options a préalablement été réduit.

Figure 8. Comparaison schématique de la prise de décision
selon la théorie du choix rationnel, la théorie de la rationalité limitée
et la théorie polyheuristique

La théorie poliheuristique, relativement récente, demeure marginale et repose encore sur les travaux d’un petit cercle d’initiés gravitant autour d’Alex Mintz. Contrairement à la théorie du choix rationnel, à la théorie de la rationalité limitée, à la théorie des jeux et à la théorie des perspectives, elle n’a pas encore été couronnée par un prix Nobel.

La théorie poliheuristique semble néanmoins promise à une plus large diffusion. Un nombre croissant d’études de cas, d’expériences en laboratoire, d’analyses statistiques et de modélisations formelles tendent à confirmer la validité de ses prédictions empiriques et de ses postulats (Mintz, 2004). De plus, et contrairement à plusieurs autres théories de l’APE, la théorie poliheuristique ne semble pas limitée au contexte américain. Des chercheurs l’ont utilisé avec succès pour comprendre des décisions de politique étrangère prises par des régimes autocratiques (Kinne, 2005), dont le Pakistan (Sathasivam, 2003), la Chine (James et Zhang, 2005 ; Sandal et al., 2011) et la Syrie (Astorino-Courtois et Trusty, 2000).

Le principal attrait de la théorie poliheuristique est peut-être sa capacité d’établir des ponts entre les différentes approches théoriques. Elle permet d’intégrer à la fois la règle de la maximisation de l’utilité de la théorie du choix rationnel , la composante stratégique de la théorie de la dissuasion rationnelle, le projet méthodologique formel de la théorie des jeux, le concept de satisfaction de la théorie cybernétique , et l’aversion pour les pertes de la théorie des perspectives (DeRouen, 2000 ; Stern, 2004 ; Keller et Yang, 2009). La phase non compensatoire de la théorie poliheuristique peut même intégrer les approches constructivistes présentées dans le prochain chapitre, dont certaines s’éloignent résolument de l’individualisme méthodologique et du positivis me qui caractérisent la théorie du choix rationnel.