Le problÃ¨me du videur : la crÃ©dibilitÃ© des explications de lâ€™IA en question

Contenu

De plus en plus dâ€™algorithmes dits dâ€™IA (intelligence artificielle), sont dÃ©ployÃ©s dans les entreprises ou institutions pour fournir des dÃ©cisions aux utilisateurs. L'impact de ces algorithmes sur la vie de leurs utilisateurs varie fortement : il est relativement limitÃ© pour les algorithmes de recommandation (qui trient l'information disponible sur une plate-forme pour choisir un ensemble restreint d'objets Ã consommer par l'internaute), mais bien plus important pour les algorithmes dâ€™allocation de crÃ©dit, et plus encore pour ceux qui dÃ©terminent les prioritÃ©s dâ€™hospitalisations.

Face Ã l'obscuritÃ© des dÃ©cisions prises, et au fait que les paramÃ¨tres de ces algorithmes ne sont gÃ©nÃ©ralement pas rendus publics, de plus en plus de personnes s'interrogent sur la justesse, lâ€™absence de biais, ou les raisons prÃ©cises de telle ou telle dÃ©cision. Certaines plates-formes donnent des explications, qui restent laconiques (par exemple, YouTubeÂ : "Le public de X regarde aussi cette chaÃ®ne", ou FacebookÂ : "Why am I seing this ad?"). L'explicabilitÃ© des systÃ¨mes d'intelligence artificielle sera-t-elle alors la pierre angulaire nÃ©cessaire Ã la confiance des utilisateurs confrontÃ©s aux dÃ©cisions des algorithmes d'IA ? Probablement pas.
En effet, nous montrons dans cet article quâ€™il est trÃ¨s facile pour une entitÃ© malveillante de falsifier les explications de son algorithme dÃ©cisionnel.

Lâ€™analogie du videur

Pour lâ€™illustrer, nous partons dâ€™une analogie entre le videur dâ€™une boÃ®te de nuit (qui dÃ©cide si un client qui se prÃ©sente peut entrer ou pas) et un classifieur (un algorithme d'IA qui attribue un label Ã chaque requÃªte). D'un point de vue abstrait, le rÃ´le du videur est dâ€™abord dâ€™observer chaque candidat Ã lâ€™entrÃ©e en boÃ®te de nuit, et ensuite de dÃ©cider si le candidat peut entrer. En dâ€™autres termes, il attribue un label ("peut entrer"/"ne peut pas entrer") Ã chaque requÃªte (chaque client qui se prÃ©sente) : câ€™est un classifieur binaire.
Obligeons maintenant notre videur Ã donner une explication pour chaque dÃ©cision : le videur devient un classifieur explicable. L'idÃ©e peut Ã premiÃ¨re vue paraÃ®tre sÃ©duisante : si le videur doit s'expliquer, il lui sera plus difficile de baser sa dÃ©cision d'admission sur de mauvais critÃ¨res. La perspective pour le videur de devoir avouer quâ€™il sÃ©lectionne les candidats Ã lâ€™entrÃ©e sur - par exemple - leur couleur de peau (alors que câ€™est interdit par la loi), nous apporterait une garantie de qualitÃ© sur le processus de sÃ©lection. Câ€™est en tout cas le raisonnement qui a pu pousser la Commission europÃ©enne et diffÃ©rents organismes Ã envisager lâ€™explicabilitÃ© des algorithmes comme une solution pour lâ€™acceptation des techniques d'IA par le public.
Seulement voilÃ , le videur peut mentir. En effet, il peut librement refuser lâ€™entrÃ©e Ã un individu pour des raisons discriminatoires (par exemple sa couleur de peau), tout en invoquant dâ€™autres raisons dans son explication (par exemple sa tenue). Et puisqu'on ne peut pas "lire" dans la tÃªte dâ€™un videur, ce mensonge nâ€™est pas dÃ©tectable pour un utilisateur isolÃ©. En rÃ©sumÃ©, si lâ€™on doute de lâ€™honnÃªtetÃ© du videur, ses explications ne changeront probablement rien au doute sur sa conduite.
Qu'en est-il de ce raisonnement dans le monde numÃ©rique ? L'exemple ci- dessus souligne que le nÅ“ud du problÃ¨me rÃ©side dans la capacitÃ© du videur Ã inventer des explications. Pour Ã©tudier cette question dans le monde des classifieurs, nous devons formaliser quelques notions.

Un modÃ¨le simple dâ€™explication des dÃ©cisions

Classifieur : Nous considÃ©rons un classifieur parmi lâ€™ensemble des classifieurs binaires, rÃ©pondant "oui" ou "non" Ã des requÃªtes. Ces requÃªtes proviennent de lâ€™espace dâ€™attributs, qui ainsi dÃ©crit lâ€™ensemble des attributs considÃ©rÃ©s par le classifieur pour exÃ©cuter son action. Nous considÃ©rons que cet ensemble contient deux types dâ€™attributs : les attributs lÃ©gitimes et les attributs discriminatoires. Les attributs lÃ©gitimes sont ceux sur lesquels notre classifieur a le droit de baser sa dÃ©cision et ses explications. Les attributs illÃ©gitimes â€” ici dÃ©finis comme discriminatoires â€” sont les attributs qu'il nâ€™a pas le droit d'utiliser.Â Ã€ titre d'exemple, si le classifieur implÃ©mente un videur, lâ€™ensemble dâ€™attributs lÃ©gitimes encodera des informations du candidat Ã lâ€™entrÃ©e sur le soin de sa tenue, ou sa possible ivresse. L'ensemble dâ€™attributs discriminatoires encodera par contre des informations sur la couleur de peau ou le genre du candidat.

Discrimination : Cette partition des attributs d'entrÃ©e engendre une partition des classifieurs. On distinguera ainsi lâ€™ensemble des classifieurs lÃ©gitimes, câ€™est-Ã -dire n'utilisant que des attributs lÃ©gitimes pour produire une dÃ©cision, et lâ€™ensemble complÃ©mentaire contenant les autres classifieurs qui utilisent au moins un attribut discriminatoire. Nous pouvons maintenant formuler la question qui nous anime : "face Ã un classifieur, peut-on dÃ©terminer s'il est discriminatoire ou pas, en se basant sur des explications accompagnant la dÃ©cision ?"

Interaction : Il nous reste maintenant Ã prÃ©ciser lâ€™interaction que nous pouvons avoir avec le classifieur. Comme il sâ€™agit dâ€™un classifieur mis Ã disposition par une plate-forme, nous sommes devant une interaction en boÃ®te noire : nous ne pouvons que lui soumettre des entrÃ©es, puis collecter chaque dÃ©cision (sans aucune idÃ©e, donc, sur le traitement effectuÃ© sur ces entrÃ©es).

Explication : Enfin, ajoutons une explication : supposons que le classifieur soit explicable (ce qui nâ€™est parfois pas une mince affaire, voire impossible nativement dans le cas des rÃ©seaux de neurones) et quâ€™il soit en mesure de produire pour chaque requÃªte une explication de la dÃ©cision. Supposons de plus que celle-ci soit si complÃ¨te quâ€™elle permette de tout rÃ©vÃ©ler, et en particulier de rÃ©vÃ©ler si le classifieur sâ€™est appuyÃ© sur un attribut discriminatoire : une seule explication obtenue dâ€™un classifieur discriminatoire rÃ©vÃ¨le qu'il est discriminatoire.