15024

Auteurs

Teytaud Olivier

Introduction

Aimez-vous jouer aux Ã©checs contre lâ€™ordinateur ? DÃ©couvrez selon quels principes fonctionne votre adversaire.

Image

DSC8948-900

Programmation des Ã©checs et d'autres jeux

Contenu

Une premiÃ¨re version de cet article a Ã©tÃ© initialement publiÃ©e sur Interstices en 2012 puis mise Ã jour en juin 2023.

Dans les annÃ©es 90, les ordinateurs sont devenus capables de jouer contre de grands joueurs d'Ã©checs et de les mettre en difficultÃ©. En 1997, Garry Kasparov, champion du monde, est battu par Deep Blue. En 2005, le programme Hydra (sur un ordinateur parallÃ¨le puissant) Ã©crase Michael Adams, un des meilleurs joueurs du monde, sur le score de 5Â Â½ Ã Â½. DÃ©sormais, des programmes commerciaux gÃ©nÃ©ralistes sur des machines usuelles sont devenus aussi forts que les meilleurs joueurs humains. Ils gagneront contre vous presque Ã coup sÃ»r, mÃªme en vous donnant des avantages divers (par exemple un pion d'avance).

Selon quels principes les programmes qui ont permis ces exploits sont-ils conÃ§usÂ ? Les techniques prÃ©sentÃ©es ici peuvent servir Ã programmer de nombreux jeux, et sont proches de techniques utilisables pour rÃ©soudre d'autres problÃ¨mes.

Le graphe de pile ou face

Les Ã©checs Ã©tant bien compliquÃ©s, regardons comment programmer un jeu beaucoup plus simple : pile ou face. CommenÃ§ons mÃªme par un exemple encore plus simple : imaginons que nous ayons une piÃ¨ce truquÃ©e qui tombe toujours sur pile. Nous savons alors que pour gagner, il faut choisir Â« pile Â», et que si l'on choisit Â« face Â», on va perdre. Le graphe reprÃ©sentant ce problÃ¨me est le suivantÂ :

Nous avons donc reprÃ©sentÃ© un jeu (certes trÃ¨s simple ici) par un graphe, c'est-Ã -dire des nÅ“uds (les ronds) reliÃ©s par des arÃªtes (les flÃ¨ches). Nous avons placÃ© un \(1\) pour la situation finale conduisant Ã une victoire, et un \(0\) pour la situation finale conduisant Ã une dÃ©faite.

GÃ©nÃ©ralisons Ã prÃ©sent ce principe d'un graphe pour reprÃ©senter un jeu, mais cette fois-ci avec deux joueurs : le premier choisit pile ou face, et le second, qui entend la dÃ©cision du premier joueur, place la piÃ¨ce selon son propre choix, sur pile ou sur face. Si le premier joueur a devinÃ© ce qu'allait faire le second, il gagne ; sinon, le second joueur gagne. Ce jeu n'est pas beaucoup plus intÃ©ressant que le prÃ©cÃ©dent, pourriez-vous objecter, car s'il joue bien, le second joueur peut toujours gagner ! Vous avez raison, mais ce qui est intÃ©ressant, c'est que cela peut Ãªtre dÃ©montrÃ© grÃ¢ce Ã la reprÃ©sentation par un graphe. Ce jeu se prÃ©sente comme suitÂ :

Il y a maintenant des nÅ“uds bleus et des nÅ“uds jaunes dans le graphe. Si on se place du point de vue du joueur 1, les nÅ“uds jaunes correspondent aux situations oÃ¹ son adversaire prend une dÃ©cision. En partant du haut de l'arbre, le joueur 1 choisit la branche descendante de son choix lorsque le nÅ“ud est bleu, et le joueur 2 choisit la branche de son choix lorsque le nÅ“ud est jaune. LÃ encore, les \(1\) marquent les victoires du joueur 1 et les \(0\) ses dÃ©faites.

Quoique le jeu ne soit pas bien compliquÃ©, on n'a pas immÃ©diatement accÃ¨s Ã une stratÃ©gie pour le premier joueur. En regardant le nÅ“ud tout en haut, et mÃªme les nÅ“uds juste en dessous, nous ne savons pas ce que le joueur 1 devrait jouer. Par contre, dans chacun des nÅ“uds jaunes, nous voyons bien que le second joueur a une stratÃ©gie trÃ¨s simple pour gagner. Nous pouvons donc Ã©tiqueter les nÅ“uds jaunes avec des \(0\) et des \(1\), tout comme les nÅ“uds terminaux. Nous constatons que pour chacun de ces nÅ“uds, le joueur 2 peut gagner (en choisissant face dans le cas oÃ¹ le joueur 1 a choisi pile, et en choisissant pile dans le cas oÃ¹ le joueur 1 a choisi face). Ces situations sont donc Ã©quivalentes Ã des dÃ©faites pour le joueur 1 ; par consÃ©quent, nous les Ã©tiquetons \(0\). Nous obtenons alors le graphe suivantÂ :

Nous constatons que quel que soit le choix du joueur 1, il se retrouve en situation \(0\) (perdante). On peut donc Ã©tiqueter aussi le nÅ“ud tout en haut d'un \(0\), montrant que la situation initiale est synonyme de dÃ©faite pour le joueur 1Â :

La procÃ©dure Ã appliquer est donc la suivanteÂ :

Ã©crire le graphe reprÃ©sentant le jeu
Ã©tiqueter les nÅ“uds avec des \(0\) et des \(1\) (Ã©ventuellement avec des Â½ pour les cas d'Ã©galitÃ©), en remontant depuis les nÅ“uds du bas de l'arbre, jusqu'Ã la racine. Un nÅ“ud a pour valeur le maximum des nÅ“uds fils, lorsque le nÅ“ud est bleuÂ ; et le minimum des nÅ“uds fils lorsque le nÅ“ud est jaune.

Nous obtenons ainsi deux certitudesÂ :

nous savons que si les joueurs jouent Â« bien Â», le joueur 2 gagneÂ ;
nous savons que le joueur 2 doit jouer une arÃªte menant Ã un \(0\) pour gagner.

Bien sÃ»r, nous avons examinÃ© un jeu trÃ¨s simple, mais fondamentalement cette approche permet, thÃ©oriquement, d'Ã©tudier des jeux compliquÃ©s, dans la mesure oÃ¹ la mÃ©moire de l'ordinateur et le temps de calcul permettent de rÃ©aliser toutes les opÃ©rations requises. Cette approche pour rÃ©soudre un jeu s'appelle le Minimax. Son inconvÃ©nient est le trÃ¨s long temps de calcul qu'il nÃ©cessite, dÃ¨s lors que le jeu s'approche d'un jeu rÃ©el.

Le cas du jeu d'Ã©checs

Le nombre inscrit dans nos nÅ“uds (0, 1 ou Â½ dans les exemples ci-dessus) est appelÃ© valeur du nÅ“ud (on parle aussi de la valeur de la situation). Pour rÃ©soudre un jeu avec l'outil prÃ©sentÃ© ci-dessus, il faut Ã©crire une valeur dans chaque nÅ“ud. C'est faisable sur les jeux triviaux ci-dessus, ou sur des jeux comme tic-tac-toe, mais pas pour le jeu d'Ã©checs, oÃ¹ une telle approche demanderait un temps dÃ©raisonnable.

Pour traiter le jeu d'Ã©checs, Claude Shannon a proposÃ© en 1950 une approximation de cet algorithme. Pour dÃ©finir cette approximation, nous allons avoir besoin d'une dÃ©finitionÂ : on dÃ©finit la profondeur d'un nÅ“ud comme le nombre d'arÃªtes Ã parcourir avant de remonter Ã la racine. On dÃ©cide alors d'une profondeur limite \(k\). Pour tous les nÅ“uds Ã profondeur \(k\) ou les nÅ“uds oÃ¹ le jeu est fini, la valeur seraÂ :

un nombre positif trÃ¨s Ã©levÃ© (par exemple 100 000) en cas de victoire dans cette situationÂ ;
un nombre trÃ¨s nÃ©gatif (par exemple -100 000) en cas de dÃ©faite dans cette situationÂ ;
une valeur approchÃ©e, calculÃ©e Ã partir des Ã©lÃ©ments visibles sur le plateau, par exemple pour les Ã©checs, comme suitÂ :
- 10 pour une dame (-10 pour la dame adverse)Â ;
- 5 pour une tour (-5 pour une tour adverse)Â ;
- 3 pour un cavalier ou un fou (-3 pour un cavalier ou fou adverse)Â ;
- 1 pour un pion (-1 pour un pion adverse)Â ;
en prenant en compte aussi des Ã©lÃ©ments de position, comme -Â½ pour chaque pion Â« doublÃ©Â Â» (deux pions sur la mÃªme colonne).

Une telle approximation est appelÃ©e Â« fonction d'Ã©valuationÂ Â». Il se trouve que des fonctions assez simples fournissent de trÃ¨s bons rÃ©sultats, et qu'on arrive efficacement Ã amÃ©liorer ces fonctions en discutant avec des experts.

Contenu

Une premiÃ¨re version de cet article a Ã©tÃ© initialement publiÃ©e sur Interstices en 2012 puis mise Ã jour en juin 2023.

Le graphe de pile ou face

La procÃ©dure Ã appliquer est donc la suivanteÂ :

Ã©crire le graphe reprÃ©sentant le jeu
Ã©tiqueter les nÅ“uds avec des \(0\) et des \(1\) (Ã©ventuellement avec des Â½ pour les cas d'Ã©galitÃ©), en remontant depuis les nÅ“uds du bas de l'arbre, jusqu'Ã la racine. Un nÅ“ud a pour valeur le maximum des nÅ“uds fils, lorsque le nÅ“ud est bleuÂ ; et le minimum des nÅ“uds fils lorsque le nÅ“ud est jaune.

Nous obtenons ainsi deux certitudesÂ :

nous savons que si les joueurs jouent Â« bien Â», le joueur 2 gagneÂ ;
nous savons que le joueur 2 doit jouer une arÃªte menant Ã un \(0\) pour gagner.

Le cas du jeu d'Ã©checs

un nombre positif trÃ¨s Ã©levÃ© (par exemple 100 000) en cas de victoire dans cette situationÂ ;
un nombre trÃ¨s nÃ©gatif (par exemple -100 000) en cas de dÃ©faite dans cette situationÂ ;
une valeur approchÃ©e, calculÃ©e Ã partir des Ã©lÃ©ments visibles sur le plateau, par exemple pour les Ã©checs, comme suitÂ :
- 10 pour une dame (-10 pour la dame adverse)Â ;
- 5 pour une tour (-5 pour une tour adverse)Â ;
- 3 pour un cavalier ou un fou (-3 pour un cavalier ou fou adverse)Â ;
- 1 pour un pion (-1 pour un pion adverse)Â ;
en prenant en compte aussi des Ã©lÃ©ments de position, comme -Â½ pour chaque pion Â« doublÃ©Â Â» (deux pions sur la mÃªme colonne).

Thèmes scientifiques

Intelligence artificielle

15024

Auteurs

Teytaud Olivier

Introduction

Contenu

Une premiÃ¨re version de cet article a Ã©tÃ© initialement publiÃ©e sur Interstices en 2012 puis mise Ã jour en juin 2023.

Le graphe de pile ou face

Ã©tiqueter les nÅ“uds avec des \(0\) et des \(1\) (Ã©ventuellement avec des Â½ pour les cas d'Ã©galitÃ©), en remontant depuis les nÅ“uds du bas de l'arbre, jusqu'Ã la racine. Un nÅ“ud a pour valeur le maximum des nÅ“uds fils, lorsque le nÅ“ud est bleuÂ ; et le minimum des nÅ“uds fils lorsque le nÅ“ud est jaune.

Nous obtenons ainsi deux certitudesÂ :

nous savons que si les joueurs jouent Â« bien Â», le joueur 2 gagneÂ ;
nous savons que le joueur 2 doit jouer une arÃªte menant Ã un \(0\) pour gagner.

une valeur approchÃ©e, calculÃ©e Ã partir des Ã©lÃ©ments visibles sur le plateau, par exemple pour les Ã©checs, comme suitÂ :
- 10 pour une dame (-10 pour la dame adverse)Â ;
- 5 pour une tour (-5 pour une tour adverse)Â ;
- 3 pour un cavalier ou un fou (-3 pour un cavalier ou fou adverse)Â ;
- 1 pour un pion (-1 pour un pion adverse)Â ;
en prenant en compte aussi des Ã©lÃ©ments de position, comme -Â½ pour chaque pion Â« doublÃ©Â Â» (deux pions sur la mÃªme colonne).

Image

DSC8948-900

Thèmes scientifiques

Intelligence artificielle