☩ L'Université de l'Invisible ☥A découvrir Sciences et nouvelles technologies

[Psychologie] Le dilemme du prisonnier

30/01/2020 Cécile

Je recopiais la fiche sur la vidéo du dilemme du prisonnier par Wil-Aime

et je me suis dit que ce serait sympa de pouvoir aussi en savoir plus sur ce jeu.

Je vous propose donc l’article de wikipedia sur le sujet et ensuite d’autres vidéos !
Si vous êtes intéressés par ce genre de sujet, je pourrais éventuellement vous proposer d’autres théories des jeux, le sujet est vaste

Le dilemme du prisonnier, énoncé en 1950 par Albert W. Tucker à Princeton, caractérise en théorie des jeux une situation où deux joueurs auraient intérêt à coopérer, mais où, en l’absence de communication entre les deux joueurs, chacun choisira de trahir l’autre si le jeu n’est joué qu’une fois.
La raison est que si l’un coopère et que l’autre trahit, le coopérateur est fortement pénalisé.
Pourtant, si les deux joueurs trahissent, le résultat leur est moins favorable que si les deux avaient choisi de coopérer.

Le dilemme du prisonnier est souvent évoqué dans des domaines comme l’économie, la biologie, la politique internationale, les politiques commerciales (avantage et risques d’une guerre des prix), la psychologie, le traitement médiatique de la rumeur, et même l’émergence de règles morales dans des communautés.

Il a donné naissance à des jeux d’économie expérimentale testant la rationalité économique des joueurs et leur capacité à identifier l’équilibre de Nash d’un jeu.

# Principe

Tucker suppose deux prisonniers (complices d’un crime) retenus dans des cellules séparées et qui ne peuvent pas communiquer ; l’autorité pénitentiaire offre à chacun des prisonniers les choix suivants :

si un seul des deux prisonniers dénonce l’autre, il est remis en liberté alors que le second obtient la peine maximale (10 ans)
si les deux se dénoncent entre eux, ils seront condamnés à une peine plus légère (5 ans)
si les deux refusent de dénoncer, la peine sera minimale (6 mois), faute d’éléments au dossier

Ce problème modélise bien les questions de politique tarifaire : le concurrent qui baisse ses prix gagne des parts de marché et peut ainsi augmenter ses ventes et accroître éventuellement son bénéfice, mais si son concurrent principal en fait autant, les deux peuvent y perdre.

Ce jeu ne conduit pas spontanément à un état où on ne pourrait améliorer le bien-être d’un joueur sans détériorer celui d’un autre (c’est-à-dire un optimum de Pareto ; voir aussi équilibre de Nash).
À l’équilibre, chacun des prisonniers choisira probablement de faire défaut alors qu’ils gagneraient à coopérer : chacun est fortement incité à tricher, ce qui constitue le cœur du dilemme.

Si le jeu était répété, chaque joueur pourrait user de représailles envers l’autre joueur pour son absence de coopération, ou même simplement minimiser sa perte maximale en trahissant les fois suivantes.
L’incitation à tricher devient alors inférieure à la menace de punition, ce qui introduit la possibilité de coopérer : la fin ne justifie plus les moyens.

Le dilemme du prisonnier est utilisé en économie, étudié en mathématiques, utile parfois aux psychologues, biologistes des écosystèmes et spécialistes de science politique.
Le paradigme correspondant est également mentionné en philosophie et dans le domaine des sciences cognitives.

# Dilemme du prisonnier classique

Formulation

La première expérience du dilemme du prisonnier a été réalisée en 1950 par Melvin Dresher et Merill Flood, qui travaillaient alors pour la RAND Corporation.
Par la suite, Albert W. Tucker la présenta sous la forme d’une histoire :

Deux suspects sont arrêtés par la police.
Mais les agents n’ont pas assez de preuves pour les inculper, donc ils les interrogent séparément en leur faisant la même offre.
« Si tu dénonces ton complice et qu’il ne te dénonce pas, tu seras remis en liberté et l’autre écopera de 10 ans de prison.
Si tu le dénonces et lui aussi, vous écoperez tous les deux de 5 ans de prison.
Si personne ne se dénonce, vous aurez tous deux 6 mois de prison. »

On résume souvent la situation dans un tableau et les utilités de chacun dans ce tableau appelé « Matrice des Paiements »

Tableau récapitulatif de la situation

1 \ 2	Le suspect n° 2 se tait	Le suspect n° 2 dénonce
Le suspect n° 1 se tait	Les deux font 6 mois de prison	1 fait 10 ans de prison ; 2 est libre
Le suspect n° 1 dénonce	1 est libre ; 2 fait 10 ans de prison	Les deux font 5 ans de prison.

Matrice des Paiements

1 \ 2	Le suspect n° 2 se tait	Le suspect n° 2 dénonce
Le suspect n° 1 se tait	(-1/2 ; -1/2)	(-10 ; 0)
Le suspect n° 1 dénonce	(0 ; -10)	(-5 ; -5)

Chacun des prisonniers réfléchit de son côté en considérant les deux cas possibles de réaction de son complice.

Dans le cas où il me dénoncerait :
- Si je me tais, je ferai 10 ans de prison
- Mais si je le dénonce, je ne ferai que 5 ans.
Dans le cas où il ne me dénoncerait pas :
- Si je me tais, je ferai 6 mois de prison
- Mais si je le dénonce, je serai libre.
Quel que soit son choix, j’ai donc intérêt à le dénoncer.

Si chacun des complices fait ce raisonnement, les deux vont probablement choisir de se dénoncer mutuellement, ce choix étant le plus empreint de rationalité.
Conformément à l’énoncé, ils écoperont dès lors de 5 ans de prison chacun.
Or, s’ils étaient tous deux restés silencieux, ils n’auraient écopé que de 6 mois chacun.
Ainsi, lorsque chacun poursuit son intérêt individuel, le résultat obtenu n’est pas optimal au sens de Pareto.

Ce jeu est à somme non nulle, c’est-à-dire que la somme des gains pour les participants n’est pas toujours la même : il soulève une question de coopération.

Pour qu’il y ait dilemme, la tentation T (je le dénonce, il se tait) doit payer plus que la coopération C (on se tait tous les deux), qui doit rapporter plus que la punition pour égoïsme P (je le dénonce, il me dénonce), qui doit être plus valorisante que la duperie D (je me tais, il me dénonce).
Ceci est formalisé par :

  T>C>P>D  (ici   0>-0,5>-5>-10)

Pour qu’une collaboration puisse naître dans un dilemme répété (ou itératif) (voir plus bas), « 2 coups de coopération C » doit être plus valorisant que l’alternat « Tentation / Dupe ».

Ce qui fait la condition

 2C>T+D  [ici : 2^{*}-0,5>0+(-10) ]

Dilemme à plusieurs joueurs

Le problème devient sensiblement différent lorsqu’ils y a plusieurs prisonniers tous à l’isolement.
Le risque de défection de l’un d’eux devient de ce fait bien plus grand que lorsqu’il n’y en a que deux.
Il peut en ce cas être plus réaliste de miser sur le fait qu’il y aura une défection… bien que si chacun en fait autant, tout le monde se retrouve avec la peine maximale.

Exemples de situations réelles

Le dilemme du prisonnier fournit un cadre général pour penser les situations où deux ou plusieurs acteurs ont un intérêt à coopérer, mais un intérêt encore plus fort à ne pas le faire si l’autre le fait, et aucun moyen de contraindre l’autre.
Les exemples suivants permettront de mieux cerner la diversité des applications possibles et la grande généralité du cadre du dilemme du prisonnier.

Marché de l’information
La situation concurrentielle des médias ressemble à un dilemme du prisonnier dans la mesure où ils privilégient la rapidité avant la qualité de l’information, d’où un phénomène de mutualisation des erreurs.

Économie
Un exemple canonique est le cas de deux entreprises qui n’ont pas le droit de s’entendre sur une politique commerciale commune (en effet le droit antitrust des États-Unis et les droits français et européen de la concurrence l’interdisent) et qui se demandent s’il leur faut procéder ou non à une baisse de prix pour conquérir des parts de marché aux dépens de leur concurrent.
Si toutes deux baissent leur prix, elles seront généralement toutes deux perdantes par rapport au statu quo.
On peut aussi évoquer à ce propos les biens collectifs (dont tout le monde veut bénéficier, tout en voulant les faire financer par les autres), le cas des quotas textiles destinés à éviter une chute des prix mais que chacun cherche à contourner, ou les campagnes publicitaires coûteuses pour le même bien qui se neutralisent.

Sport
Les courses cyclistes sur route, dont le Tour de France, offrent d’autres exemples d’interactions stratégiques de type « dilemme du prisonnier », notamment lorsque deux coureurs échappés doivent décider s’ils font l’effort ou s’ils profitent au maximum de l’aspiration de leur co-échappé : si chacun profite de l’aspiration de l’autre (ce que chacun préfère), l’échappée échoue.

Écologie
La théorie des jeux, et le dilemme du prisonnier en particulier, sont fréquemment utilisés en écologie pour modéliser l’évolution des comportements entre individus d’une même espèce vers des stratégies évolutivement stables.
L’apparition et le maintien des comportements de collaboration par exemple, se prêtent à ce type d’analyse.
Richard Dawkins en a fait l’un des points centraux de sa théorie du gène égoïste, puisque l’optimisation de la survie peut passer par un comportement apparemment altruiste.

Politique internationale
Considérons deux pays rivaux.
Chacun peut choisir de maintenir ou non une armée.
Si tous deux ont une armée (de force à peu près équivalente), la guerre est moins « tentante », car très coûteuse ; c’était la situation de la guerre froide.
Les dépenses militaires et la course aux armements sont alors une perte nette pour les deux pays.
Si un seul a une armée, il peut évidemment conquérir sans coup férir l’autre, ce qui est pire.
Enfin, si aucun n’a d’armée, la paix règne et les pays n’ont pas de dépense militaire.
La situation de coopération permettant à chacun de ne pas avoir d’armée est évidemment préférable à la situation où les deux pays en entretiennent une, mais elle est instable : chacun des deux pays a une forte incitation à se doter unilatéralement d’une armée pour dominer l’autre.

# Équilibre de Nash

En théorie des jeux, un équilibre de Nash est une situation où :

Chaque joueur prévoit correctement le choix des autres
Chaque joueur maximise son gain, compte tenu de cette prévision.

Autrement dit, un profil de stratégie $s^{*}=((s_{i}^{*})_{i\in [\![1,n]\!]})$ est un équilibre de Nash si chaque joueur $i$ joue une stratégie optimale $s_{i}^{*}$ (qui maximise son gain $\pi$ ) compte tenu des stratégies des autres joueurs $s_{j}^{*}$ , où $j\in [\![1,n]\!]$ :

$\forall (i,j)\in [\![1,n]\!]^{2},\forall s_{i}\in ((s_{i}^{*})_{i\in [\![1,n]\!]}),\pi (s_{i}^{*},s_{j}^{*})\geq \pi (s_{i},s_{j}^{*})$ $\forall (i,j)\in [\![1,n]\!]^{2},\forall s_{i}\in ((s_{i}^{*})_{i\in [\![1,n]\!]}),\pi (s_{i}^{*},s_{j}^{*})\geq \pi (s_{i},s_{j}^{*})$

L’équilibre de Nash est donc tel qu’aucun joueur ne regrette son choix (il n’aurait pas pu faire mieux) au vu du choix des autres, les choix étant, comme toujours en théorie des jeux, simultanés.

Souvent l’équilibre de Nash est présenté comme une situation où chacun adopte la meilleure réponse « compte tenu » du choix des autres, ce qui peut laisser croire que ce choix est connu — alors qu’il n’en est rien, pour des raisons évidentes (A déciderait en « voyant » le choix de B qui lui-même déciderait « en voyant » le choix de A).

Les prévisions des joueurs sur ce que vont faire les autres sont donc un élément essentiel de l’équilibre de Nash.
Elles en sont aussi le principal point faible, ces prévisions — élément essentiellement subjectif — n’ayant généralement pas de raison d’être correctes, comme c’est le cas dans les modèles du duopole de Cournot et de Bertrand.

L’équilibre de Nash peut donc être considéré comme une « solution » d’un jeu, au sens mathématique (résolution d’un système d’équations), mais pas forcément si on entend par « solution » une prédiction de ce que feront effectivement les joueurs placés dans la situation décrite par le jeu — même en supposant qu’ils sont rationnels.

L’équilibre de Nash a été nommé d’après le mathématicien John Forbes Nash.
Il lui a valu le « Prix Nobel » d’économie en 1994.
Cette contribution a été célébrée dans le monde de l’économie comme « l’une des avancées intellectuelles extraordinaires du XXe siècle ».

# Le dilemme répété

Dans son livre The Evolution of Cooperation (L’Évolution de la coopération, 1984), Robert Axelrod étudie une extension classique de ce dilemme : le jeu se répète, et les participants gardent en mémoire les précédentes rencontres.
Cette version du jeu est également appelée dilemme itératif du prisonnier.
Il donne une autre illustration à partir d’une situation équivalente : deux personnes échangent des sacs, censés contenir respectivement de l’argent et un bien.
Chacun a un intérêt immédiat à passer un sac vide, mais il est plus avantageux pour les deux que la transaction ait lieu.

Quand on répète ce jeu durablement dans une population, les joueurs qui adoptent une stratégie intéressée y perdent au long terme, alors que les joueurs apparemment plus désintéressés voient leur « altruisme » finalement récompensé : le dilemme du prisonnier n’est donc plus à proprement parler un dilemme.
Axelrod y a vu une explication de l’apparition d’un comportement altruiste dans un contexte d’évolution darwinienne par sélection naturelle.

La meilleure stratégie dans un contexte déterministe est « œil pour œil » (« Tit for Tat », une autre traduction courante étant « donnant-donnant ») et a été conçue par Anatol Rapoport pour un concours informatisé.
Son exceptionnelle simplicité a eu raison des autres propositions.
Elle consiste à coopérer au premier coup, puis à reproduire à chaque fois le comportement de l’adversaire du coup précédent.
Une variante, « œil pour œil avec pardon », s’est révélée un peu plus efficace : en cas de défection de l’adversaire, on coopère parfois (de 1 à 5 %) au coup suivant.
Cela permet d’éviter de rester bloqué dans un cycle négatif.
Le meilleur réglage dépend des autres participants.
En particulier, « œil pour œil avec pardon » est plus efficace si la communication est brouillée, c’est-à-dire s’il arrive qu’un autre participant interprète à tort un coup.

Pour le dilemme du prisonnier, il n’existe pas de stratégie toujours optimale.
Si, par exemple, toute la population fait systématiquement défaut sauf un individu qui respecte « œil pour œil », alors ce dernier a un désavantage au premier coup.
Face à une unanimité de défaut, la meilleure stratégie est de toujours trahir aussi.
S’il y a une part de traîtres systématiques et « d’œil pour œil », la stratégie optimale dépend de la proportion et de la durée du jeu.
En faisant disparaître les individus qui n’obtiennent pas de bons totaux et en faisant se dupliquer ceux qui mènent, on peut étudier des dynamiques intéressantes.
La répartition finale dépend de la population initiale.

Si le nombre N d’itérations est fini et connu, l’équilibre de Nash est de systématiquement faire défaut, comme pour N=1.
Cela se montre simplement par récurrence :

au dernier coup, sans sanction possible de la part de l’adversaire, on a intérêt à trahir
ce faisant, à l’avant-dernier coup, comme on anticipe que l’adversaire trahira quoi qu’il arrive au coup suivant, il vaut mieux trahir aussi
on poursuit le raisonnement jusqu’à refuser de coopérer à tous les coups.

Pour que la coopération reste intéressante, le futur doit donc rester incertain pour tous les participants — une solution possible est de tirer un N aléatoire.

La situation est aussi étonnante si l’on joue indéfiniment au dilemme du prisonnier, le score étant la moyenne des scores obtenus (calculée de manière appropriée).

Le dilemme du prisonnier est la base de certaines théories de la coopération humaine et de la confiance.
Si l’on assimile les situations de transactions qui réclament de la confiance à un dilemme du prisonnier, un comportement de coopération dans une population peut être modélisé comme un jeu entre plusieurs joueurs, répété – d’où la fascination de nombreux universitaires depuis longtemps : en 1975, Grofman et Pool estimaient déjà à plus de 2000 les articles scientifiques sur le sujet.

Ces travaux fournissent une base modélisable, quantitative, pour l’étude scientifique des lois morales.

Axelrod donne dans son ouvrage Comment réussir dans un monde égoïste un exemple de stratégie œil pour œil dans le cadre du dilemme du prisonnier itératif : durant la guerre des tranchées, les combattants des deux camps, et ce, contre l’avis du commandement, appliquaient le principe « vivre et laisser vivre ».
Les protagonistes ne déclenchaient ainsi jamais en premier les hostilités mais répliquaient fortement à toute agression.

# Variantes

Il existe des variantes de ce jeu qui, en modifiant légèrement les gains, aboutissent à des conclusions très différentes :

Le jeu de la Poule-mouillée

La poule-mouillée est un autre jeu à somme non nulle, où la coopération est récompensée.
Ce jeu est similaire au dilemme du prisonnier en ce qu’il est avantageux de trahir lorsque l’autre coopère.
Mais il en diffère en ce qu’il est avantageux de coopérer si l’autre trahit : la défection double est la pire des solutions — donc un équilibre instable — alors que dans le dilemme du prisonnier il est toujours avantageux de trahir, ce qui rendait l’équilibre de double défection stable.
La double coopération est dans les deux jeux un équilibre instable.

Une matrice des gains ressemble à :

si les deux coopèrent, ils reçoivent +5
si l’un coopère alors que l’autre se défausse, alors le premier obtient +1 et l’autre +10
si les deux font défaut, ils touchent -20

Matrice des gains

1 \ 2	Coopère	Trahit
Coopère	(+5;+5)	(+1;+10)
Trahit	(+10;+1)	(-20;-20)

L’appellation « Poule-mouillée » est tirée du « jeu » automobile :

Deux voitures se lancent l’une vers l’autre, prêtes à se rentrer dedans.
Chaque joueur peut dévier et éviter la catastrophe (coopération) ou garder le cap au risque de la collision (défection).
Il est avantageux d’apparaître comme un « dur » qui ne renoncera pas et d’intimider l’adversaire… tant qu’on parvient à rester en jeu.

On trouve des exemples concrets dans beaucoup de situations quotidiennes : l’entretien de la maison commune à un couple, par exemple, ou l’entretien d’un système d’irrigation entre deux fermiers.
Chacun peut l’entretenir seul, mais ils en profitent tous les deux autant.
Si l’un d’entre eux n’assure pas sa part d’entretien, l’autre a toujours intérêt à le faire à sa place, pour continuer à arroser.
Par conséquent, si l’un parvient à établir une réputation d’indélicat dominant — c’est-à-dire si l’habitude est prise que ce soit toujours l’autre qui s’occupe de l’entretien — il sera susceptible de maintenir cette situation.

Cet exemple peut également s’appliquer en politique internationale, dans la situation où deux États entretiennent un différend qui est susceptible de déboucher sur une guerre.
Passer pour une poule mouillée est une garantie d’être ultérieurement confronté à nouveau à la même situation (comme la France et la Grande-Bretagne le constatèrent avant 1939), mais maintenir une réputation suppose une dépense (entretien militaire) et des risques (guerre toujours possible).

Ami ou ennemi

« Ami ou ennemi » (« Friend or Foe?») est un jeu sur une chaîne câblée aux États-Unis (Game Show Network).
C’est un exemple de dilemme du prisonnier testé sur des particuliers dans un cadre artificiel.
Sur le plateau, trois paires de participants s’affrontent.
Quand une paire est éliminée, ses deux membres se répartissent leurs gains selon un dilemme du prisonnier.
Si les deux coopèrent (« Friend »), ils partagent équitablement la somme accumulée au cours du jeu.
Si aucun ne coopère (« Foe »), ils se quittent sans rien.
Si l’un coopère et que l’autre fait défaut, le premier part les mains vides et l’autre remporte le tout.
La situation est un peu différente de la matrice canonique plus haut : le gain est le même pour qui voit sa confiance trahie ou qui emporte l’autre dans sa perte.
Si un joueur sait que l’autre le trahira, sa réponse lui est indifférente.
L’équilibre non coopératif est donc neutre ici, alors qu’il est stable dans le cas habituel (du prisonnier).

La matrice à considérer est donc :

si les deux coopèrent, chacun obtient 50 %
si les deux font défaut, ils en tirent 0 %
si l’un coopère et que l’autre le trahit, le premier reçoit 0 % et l’autre 100 %

Matrice des gains

1 \ 2	Coopère	Trahit
Coopère	(50 % ; 50 %)	(0 % ; 100 %)
Trahit	(100 % ; 0 %)	(0 % ; 0 %)

L’économiste John A. List a étudié le comportement des joueurs dans ce jeu pour tester les prédictions de la théorie des jeux dans un contexte réel.
Les joueurs collaborent dans 50 % des cas mais on note des différences de comportement selon les caractéristiques socio-démographiques des joueurs.
Par exemple, les hommes coopèrent moins souvent que les femmes.
En revanche, il ressort de l’étude que les joueurs adaptent assez peu leur comportement à leur partenaire.

# Le dilemme du prisonnier dans la culture

Dans le roman N’oublier jamais (2014) de Michel Bussi, deux coupables jouent en apparence le dilemme du prisonnier pendant dix ans, le jeu qu’un policier devine et tente en vain de clore.

Le dilemme du prisonnier est le titre d’une vidéo de Wil Aime où quatre amis se retrouvent interrogés par un enquêteur qui leur propose un dilemme du prisonnier

# Les vidéos

Alors je n’ai regardé que les vidéos de Sciencetonnante & Science4All sur le sujet… du coup, si vous avez d’autres vidéos sur ce sujet n’hésitez pas à nous laisser un commentaire pour qu’on regarde et ajoute tout ça !

Plus d’infos : Dilemme du prisonnier Équilibre de Nash

Comprendre les comportements dans le dilemme du prisonnier
La théorie des jeux de Sciencetonnante

Tags : théorie jeu dilemme_prisonnier

À propos
Articles récents

Cécile

Co-créatrice de la communauté
Bidouilleuse de code
Créatrice de bugs / features
Boulette officielle
Mon ancien pseudo était Waha

Mon but dans la vie : conquérir le monde à dos de drosophile

Mes animés préférés : host club, black lagoon, durarara, deadman wonderland, excel saga, Gurren Lagann, samurai champloo

Mes mangas préférés : Goth, Death note, Deadman Wonderland, Perfect World, Attaque des titans, Seven Deadly Sins...

Mes films préférés : Arrietty, Summer Wars, Garden State, une vie moins ordinaire,Le seigneur des Anneaux, Bienvenue a gattaca, La traversée du temps, le chateau ambulant, le voyage de chihiro, princesse mononoke, John Wick

Mes séries TV préférées : Nerdz, le visiteur du futur, doctor who,Izombie, Stranger Things, The boys, Preacher

Les derniers articles par Cécile (tout voir)

Une lampe « planètes » - 23/03/2025
Sais-tu ce que signifie le mot « Manga » ? - 20/03/2025
Ali Hazelwood – Check & Mate - 15/03/2025

0 0 votes

Évaluation de l'article

(Visited 251 times, 1 visits today)

Nombre de vues 415