Cartographier les risques sociétaux de l'Intelligence Artificielle.

Franck Negro
22 oct. 2025
28 min de lecture

Le 16 juin 2023 a été publié sur le site arXiv un document de recherche intitulé : TASRA : A Taxonomy and Analysis of Societal-Scale Risks from AI, rédigé par Andrew Critch et Stuart Russell, deux chercheurs spécialistes de l’IA. Stuart Russell est d’ailleurs le co-auteur, avec Peter Norvig, du manuel de référence mondial en intelligence artificielle utilisé par les étudiants souhaitant s’initier de manière approfondie à la discipline.

Dans un contexte où les risques d’extinction liés à l’IA (ou risques existentiels) sont de plus en plus pris au sérieux par la communauté scientifique et les dirigeants des grandes entreprises technologiques, les deux auteurs proposent une cartographie des risques que fait peser le développement de l’intelligence artificielle sur l’humanité. Ils emploient pour cela le terme de "taxonomie" (ou taxinomie), emprunté aux sciences naturelles, qui désigne la classification des êtres vivants selon des caractéristiques communes. L’idée est ici similaire : établir une classification aussi complète que possible des différents types de risques induits par l’IA.

La démarche de Critch et Russell consiste à fonder leur taxonomie sur un critère central : la responsabilité (accountability). Autrement dit, les risques sont classés selon trois paramètres : 1) qui agit (individus, entreprises, États) ; 2) si ces acteurs agissent volontairement ou non ; 3) et s’ils sont coordonnés ou dispersés. Cette approche permet de distinguer les situations où le risque découle d’un défaut de conception involontaire, d’une diffusion des responsabilités rendant difficile toute imputabilité, ou encore d’une utilisation délibérément malveillante des systèmes d’IA.

S’adressant avant tout aux chercheurs, aux décideurs publics et aux responsables de la gouvernance de l’IA à grande échelle, ainsi qu’aux cadres dirigeants des grandes entreprises technologiques, cette taxonomie vise à offrir un cadre d’analyse pour mieux identifier et comprendre les risques majeurs associés au déploiement de l’IA. L’un des atouts de l’article réside dans le fait que chaque grande famille de risques est illustrée par des exemples et scénarios concrets, ce qui les rend plus tangibles, tout en proposant des pistes de solutions combinant des dimensions techniques, éthiques et politiques.

Risques individuels versus risques sociétaux. – Une première manière de classer les risques liés à l’IA consiste à distinguer deux échelles : 1) les risques individuels ; 2) les risques sociétaux. Les risques individuels concernent directement des personnes ou des groupes limités. Parmi eux : le credit scoring utilisé pour l’octroi ou le refus d’un prêt bancaire ; les algorithmes de sélection de candidats à l’embauche ; ou encore la surveillance algorithmique au sein des entreprises, entraînant des atteintes à la vie privée. Ces risques peuvent révéler des biais de discrimination, mais restent circonscrits à une échelle micro (individuelle ou organisationnelle).

À l’inverse, les risques sociétaux affectent la société dans son ensemble, ses institutions ou ses infrastructures critiques (réseaux électriques intelligents, systèmes ferroviaires, etc.), voire l’humanité tout entière. Parmi les plus fréquemment évoqués dans la littérature scientifique — et qui suscitent une inquiétude croissante des gouvernements — figurent : la désinformation de masse (fake news, deepfakes) et ses effets sur la démocratie ; la déstabilisation du système financier mondial, liée à un usage incontrôlé d’algorithmes de trading à haute fréquence ; ou encore l’emploi militaire de l’IA, notamment à travers le développement d’armes létales autonomes.

Si Critch et Russell reconnaissent la pertinence des deux échelles, leur réflexion se concentre principalement sur les risques sociétaux, c’est-à-dire ceux dont les effets peuvent se propager à grande échelle. Il ne s’agit pas, pour eux, d’établir une liste exhaustive de tous les dangers liés à l’IA, mais bien de proposer, selon une méthodologie rigoureuse et systématique, une taxonomie complète des risques à l’échelle de la société associés au déploiement des systèmes d’intelligence artificielle.

Une vision plus large des risques sociétaux. – Un autre point remarquable de l’article de Critch et Russell est de s’écarter de l’hypothèse généralement admise, qui consiste à penser les dangers existentiels de l’IA à partir d’un système unique – une superintelligence, pour reprendre les termes de Nick Bostrom – qui poursuivrait des objectifs en opposition aux intérêts et aux valeurs humaines. Les auteurs soulignent ici la manière dont les récits de science-fiction ont contribué à façonner notre imaginaire collectif, au point que nous avons tendance à appréhender les risques de l’IA à travers des scénarios empruntés à des films comme 2001, l’Odyssée de l’espace (1968) de Stanley Kubrick, ou Terminator (1984) de James Cameron.

Or, selon Critch et Russell, les dangers liés aux systèmes d’IA sont multiples et polymorphes. Ils ne proviennent pas nécessairement d’un seul système super-puissant et défaillant, mais de dynamiques variées, comme des interactions imprévues entre plusieurs systèmes que l’on ne contrôle plus (effets systémiques), l’usage malveillant d’outils d’IA largement répandus pour manipuler l’opinion ou réaliser des cyberattaques (ransomwares, phishing, attaques par déni de service), ou encore l’apparition d’un chômage de masse provoqué par l’automatisation d’un nombre croissant de tâches. En d’autres termes, l’idée quasi obsédante d’une superintelligence capable de provoquer l’extinction de l’humanité peut nous empêcher de prendre en compte et de réfléchir aux nombreuses autres menaces potentielles liées au déploiement de SIA.

La méthode : l’arbre de défaillance. - Pour ce faire, les auteurs vont utiliser un outil très connu des ingénieurs pour évaluer les risques de sécurité et de défaillance d’un système : un arbre de défaillances. Il s’agit d’une représentation visuelle et graphique qui part de l’identification d’un évènement racine dont on redoute la survenance – une technologie d’IA cause un dommage à l’échelle de la société -, pour ensuite répertorier, à partir de critères donnés, des catégories de risques. En d’autres termes, les deux chercheurs proposent de classer les risques liés au déploiement de systèmes d’IA en six grandes familles à partir de trois critères utilisés de manière séquentielle, comme dans un arbre de décision :

Unité et dilution de la responsabilité : Le premier critère questionne l’identité et la responsabilité des acteurs. Quelles sont en effet les personnes à l’origine des actions qui ont conduit au dommage ? Ou encore : Est-ce que les actions en question sont l’œuvre d’un groupe diffus de personnes sans que l’on puisse attribuer le dommage créé par une IA à une seule et unique personne ? Les auteurs pointent ici la notion centrale de "responsabilité diffuse". La conception et le déploiement d’un SIA mobilisent en effet plusieurs parties prenantes : ingénieurs, chercheurs, développeurs, chefs de projet, juristes, ou encore, managers. En cas de survenance d’un problème provoquant un dommage, il devient ainsi très difficile d’attribuer la responsabilité à un seul acteur. Autrement dit, chacun des acteurs contribue à la survenance d’un dommage sans que l’on puisse tenir pour responsable une personne déterminée. Ce qui pose la question fondamentale du régime de responsabilité qu’il convient d’appliquer, c’est-à-dire les règles qui déterminent dans quelle condition une personne ou un groupe de personnes peut être tenue pour responsable d’un dommage.
Anticipation ou non du risque et de son impact : Le second critère fait référence au processus de gestion des risques, de leur cartographie et de leur probabilité d’occurrence. Les dommages créés par l’IA avaient-ils en effet été prévu et anticipé par les créateurs du système ? Ou encore : Les créateurs ont-ils mis volontairement sous silence des risques qu’ils savaient possibles afin de privilégier des intérêts d’ordre économiques (indifférence volontaire) ? Ici la logique de l’arbre consiste à distinguer les cas où le dommage a été toléré ou ignoré en toute connaissance de cause.
Intention ou non de nuire : Le troisième et dernier critère met en jeu le caractère intentionnel ou non des créateurs d’IA, en distinguant deux types d’acteurs. En effet, au cas où ces derniers viseraient de façon explicite à causer un dommage, il convient alors de considérer de sous-catégories d’acteurs, à savoir : 1) les acteurs criminels (terrorisme, cybercriminalité), 2) les acteurs étatiques (armes autonomes, surveillance de masse, etc.).

Ainsi, en combinant ces trois critères au sein d’une logique qui prend la forme d’un arbre de décision, les auteurs Critch et Russel aboutissent à une taxonomie exhaustive qui répartit les risques liés à l’IA en six grandes familles, chacune correspondant à un chemin particulier dans l’arbre de décision.

Six grands types de risques. – À partir des trois critères évoqués ci-dessus – unité ou dilution de la responsabilité, anticipation ou non du risque, intention ou non de nuire –, Critch et Russell identifient six grandes familles de risques sociétaux associés à l’IA et aux algorithmes de façon générale: 1) responsabilité diffuse; 2) impacts de l’IA "plus grands que prévu"; 3) impacts de l’IA "pires que prévu"; 4) indifférence volontaire; 5) arme criminelle; 6) arme d’État. Comme indiqué plus haut, il est important de garder à l’esprit qu’au cœur de chacune de ces familles de risques se trouve la question de la responsabilité de l’agent en tant que concepteur de systèmes d’intelligence artificielle. Peut-on clairement identifier le ou les concepteurs du système? Dans quelle mesure peut-on engager leur responsabilité? Étaient-ils conscients de la nature des dommages susceptibles d’être causés par le système qu’ils ont conçu? Ont-ils agi en connaissance de cause? Ce sont ces interrogations qui structurent la taxonomie proposée par les auteurs.

Personne n’est véritablement fautif ou la dilution de la responsabilité (1). – Le premier type de risque correspond à la dilution de la responsabilité entre les différentes parties prenantes impliquées dans la conception et le déploiement d’un système d’IA. Nous sommes dans le cas de situations où des processus automatisés ou des algorithmes provoquent des dommages à l’échelle sociétale, sans qu’il soit possible d’identifier clairement un agent principal sur lequel faire porter la responsabilité.

Les auteurs citent à titre d’exemple un épisode marquant de l’histoire financière de ces dernières années, connu sous le nom de "flash krach" ou "krach éclair". Le 6 mai 2010 en effet, l’indice Dow Jones a perdu, en quelques minutes, près de 1 000 points — soit environ 9% de sa valeur —, pour finalement rebondir presque aussitôt et retrouver son niveau initial. Cet effondrement soudain, non justifié et complètement imprévu, aurait entre autres été causé par des algorithmes de trading à haute fréquence (HFT pour High Frequency Trading) capables d’analyser d’énormes quantités de données de marché en temps réel, de prendre des décisions et d’exécuter un très grand nombre d’ordres en quelques millisecondes, dans le but d’exploiter des micro-écarts de prix et les opportunités de gains sous-jacentes. Cet événement vient ainsi questionner le fonctionnement des marchés financiers actuels, la fiabilité de systèmes de trading de plus en plus automatisés, la transparence des ordres passés, mais aussi — et surtout — les risques de contagion et d’amplification du fait d’une réaction simultanée de systèmes algorithmiques tous programmés pour acheter et vendre en fonction de données provenant des marchés. Or, l’épisode du 6 mai 2010 constitue un exemple paradigmatique de responsabilité diffuse, puisque l’enquête conjointe de la SEC (Securities and Exchange Commission) et de la CFTC (Commodity Futures Trading Commission) a conclu à l’impossibilité de désigner un responsable unique. Chaque algorithme avait en effet réalisé exactement ce pour quoi il avait été conçu, provoquant ainsi une réaction en chaîne de nature systémique, sans qu’aucun acteur unique ne puisse être tenu responsable des dégâts provoqués. Si, dans le cas présent, des humains ont pu intervenir après coup pour stopper la chute et rétablir le cours normal des choses, que pourrait-il se passer à l’avenir, s’interrogent les auteurs, dans un environnement où les technologies d’IA deviennent de plus en plus puissantes et omniprésentes?

Quels enseignements pouvons-nous tirer de l’événement du 6 mai 2010, lesquels peuvent d’ailleurs être généralisés à tous les scénarios impliquant le déploiement de systèmes d’intelligence artificielle autonomes et distribués dont: 1) les risques ne peuvent être attribués à aucune intention malveillante; 2) aucune défaillance unique ne peut être clairement identifiée; 3) mais dont le résultat final peut s’avérer catastrophique à l’échelle sociétale (risque systémique). Trois principaux:

Le problème de l’intégration de systèmes autonomes : Le phénomène de dilution de la responsabilité intervient majoritairement dans des contextes où le déploiement de programmes conçus pour fonctionner de manière autonome finit par constituer un système intégré, au point qu’il devient difficile d’établir un régime de responsabilité clair en cas de dommage. Le flash krach montre en effet que les effets indésirables sont moins dus aux composantes du système prises individuellement — les algorithmes de trading à haute fréquence utilisés par chacun des acteurs du système financier, tels que les hedge funds ou les grandes banques d’investissement — qu’à la manière dont ces algorithmes réagissent en temps réel à des informations de marché qu’ils contribuent eux-mêmes à alimenter. En d’autres termes, c’est la complexité du système (plusieurs IA), l’autonomie de ses acteurs, et l’émergence de processus automatisés non voulus causant un préjudice, qui provoquent la dilution de la responsabilité. Or, sur quelle base réguler des systèmes d’intelligence artificielle de plus en plus complexes et autonomes, lorsqu’il devient extrêmement difficile de déterminer un régime de responsabilité adéquat en cas de dommage ? La question est d’autant plus cruciale lorsqu’il s’agit de domaines aussi sensibles que la finance, la santé ou la justice.
Le problème de l’échelle sociétale : L’exemple du flash krach du 6 mai 2010 montre non seulement que les dommages potentiels pouvant être générés par des interactions non prévues de systèmes d’IA autonomes ne sont pas le fait d’acteurs malveillants, mais peuvent aussi affecter et déstabiliser, de façon involontaire et non contrôlée, le fonctionnement de systèmes tout entier, comme l’économie mondiale, le système financier international, voire plus, la confiance des acteurs à court, moyen et long terme.
Le problème de la régulation : Enfin, l’exemple du flash krach montre que les risques systémiques non désirés provoqués par l’interaction imprévisible entre des systèmes automatisés et distribués proviennent d’un manque de coordination entre des acteurs indépendants. Autrement dit, les effets collectifs et sociétaux dommageables émergent à partir d’actions opérées par des agents autonomes, agissant sans intention de nuire, et conformément aux règles prescrites. Ce qui vient non seulement questionner les modèles de causalité simples sur lesquels reposent les régimes de responsabilité juridique actuels, mais aussi les mécanismes de coopération et de gouvernance destinés à prévenir les effets sociétaux potentiellement indésirables.

Les impacts « plus grands que prévu » (2). – La deuxième catégorie de risques mis en exergue par l’article de Critch et Russell renvoie aux décalages d’échelle entre ce que les concepteurs – cette fois-ci clairement identifiables –, avaient anticipé lors des phases de conception et de test d’une IA, et les effets négatifs non prévus lors de son déploiement à grande échelle. En d’autres termes, le risque provient de la dimension imprévue qu’un phénomène peut prendre une fois qu’il se diffuse largement dans la société, et ce, malgré les bonnes intentions de départ de la part des concepteurs du produit. Ou encore : comment une innovation localement maîtrisée peut-elle, par effet de diffusion, produire des conséquences systémiques négatives ?

Les auteurs prennent notamment l’exemple d’une entreprise de réseaux sociaux souhaitant concevoir un outil performant de modération automatique ayant pour ambition (contrairement à Meta…), de repérer les messages contenant des discours haineux (racistes, sexistes, homophobes, etc.). Afin d’apprendre au système à reconnaître ces discours indésirables, les chercheurs ont besoin d’entraîner un modèle d’IA à partir de nombreux exemples dont ils ne disposent pas. Ils décident alors d’utiliser un générateur de texte automatique pour produire des milliers de discours haineux, et constituer ainsi un corpus complet, leur permettant de concevoir un modèle de détection robuste et performant. Les nombreux tests effectués par les équipes de développement montrent que l’algorithme ainsi entraîné reconnaît de façon efficace les discours haineux.

Or, la gigantesque base qu’ils ont artificiellement produite pour entraîner l’algorithme fuit accidentellement sur Internet. Des individus mal intentionnés — racistes, extrémistes ou complotistes — s’en emparent et diffusent massivement ces contenus en ligne, présentés comme des discours de haine « validés scientifiquement ». Une technologie initialement conçue pour filtrer les discours de haine se transforme ainsi en outil de diffusion en masse d’insultes, de slogans et de théories racistes, homophobes et sexistes.

Indépendamment de l’exemple, dont on peut questionner le niveau de pertinence, l’objectif des auteurs est ailleurs. Il s’agit pour eux de décrire une structure de risque prenant la forme d’un mécanisme d’emballement, typique du fonctionnement des technologies numériques. Comment, en effet, un événement initialement local et animé de bonnes intentions peut-il produire des impacts non anticipés et disproportionnés du fait du caractère fondamentalement viral des technologies numériques ? En d’autres termes, ce n’est pas tant la nature des contenus fuités qui est ici en cause, que l’effet d’échelle incontrôlable que révèle l’exemple, en tant que prototype d’un événement du genre “bigger than expected”. Un système d’IA peut non seulement permettre la création de contenus en masse comme jamais auparavant, mais également déclencher des mécanismes d’emballement et d’amplification non désirés et incontrôlés, pouvant entraîner, par exemple, des spirales de popularité autour de contenus haineux ou injurieux. Ce n’est donc pas la technologie à proprement parler que pointent les auteurs, mais la manière dont une composante d’un projet initial — dont on n’a pas suffisamment évalué les risques d’échelle (ici, le corpus d’entraînement) — peut provoquer des dommages sociétaux importants lorsqu’elle échappe au contrôle de ses concepteurs.

Critch et Russell comparent ce genre d’incident à une catastrophe de type “Tchernobyl”. Ce dernier est là pour symboliser la perte de contrôle sur un système autonome dont les effets se propagent bien au-delà de ce qui avait été initialement anticipé. De la même façon, et toute proportion gardée, la fuite d’informations toxiques provoquée par une erreur locale, et leur diffusion parmi des millions d’internautes, peut entraîner des dommages systémiques à grande échelle.

Malgré les bonnes intentions, les impacts sont désastreux (3). – La troisième catégorie de risques ne renvoie plus à un simple décalage d’échelle ou à l’amplification imprévue d’un phénomène apparemment anecdotique (cas n° 2), mais désigne des résultats qui s’avèrent nocifs malgré des intentions initiales pourtant louables de la part des concepteurs du système. En effet, si la plupart des entreprises technologiques opérant dans le secteur de l’IA affirment concevoir des technologies avec l’intention de produire des effets positifs à grande échelle — accroître la productivité des personnes, faciliter la communication ou augmenter les connaissances —, les résultats obtenus peuvent finalement s’avérer moralement désastreux, du fait d’une sous-estimation des impacts qu’elles peuvent avoir sur les comportements humains. En d’autres termes, pour paraphraser une célèbre formule attribuée à Marx, les effets délétères produits par certaines applications d’IA peuvent être pavés de bonnes intentions.

Pour illustrer leur propos, Critch et Russell prennent l’exemple d’une grande société high-tech comptant plus d’un milliard d’utilisateurs, qui aurait décidé de lancer un assistant intelligent d’e-mails — on peut penser à Google ou Microsoft — avec l’intention louable d’aider ses utilisateurs à gagner du temps. Dans ce cadre, la société a l’idée de développer une IA capable : 1) de lire les messages reçus, et 2) de proposer des réponses toutes prêtes, formulées de la manière la plus appropriée possible.

Les utilisateurs ne comprenant pas toujours pourquoi l’IA propose tel ou tel message en réponse à un e-mail donné, les ingénieurs décident d’ajouter — toujours pour le plus grand bonheur de leurs clients — une fonction d’explication indiquant les raisons des recommandations. Si un utilisateur de l’application d’e-mail reçoit par exemple un message de Julia du type : "Hé, veux-tu venir à ma fête à 20 h demain ?", l’IA pourrait répondre en retour : "Bien sûr Julia, j’adorerais venir ! Mais puis-je arriver plutôt vers 21h?", puis expliquer sa réponse à l’utilisateur en précisant : "Rappelez-vous que vous avez prévu de rencontrer Kevin de 17 h 30 à 20 h 30. Il n’est toutefois pas nécessaire de mentionner à Julia ce détail, qui pourrait la rendre jalouse ou offensée." L’assistant IA tiendrait ainsi compte, à partir de données émanant d’autres applications, du contexte d’usage de l’utilisateur, mais aussi, et surtout, des effets positifs ou négatifs que pourraient produire telle ou telle réponse sur ses interlocuteurs. Et puisqu’il est toujours bon d’apprendre de ses expériences, l’assistant d’e-mails a été programmé de telle sorte qu’il puisse s’améliorer avec le temps, en fonction des messages proposés que son utilisateur décide d’envoyer. En d’autres termes, l’IA reçoit un "feedback positif" à chaque fois que l’utilisateur envoie la réponse qu’elle a suggérée.

Or il appert que l’assistant reçoit davantage de retours dits « positifs » lorsque ses propositions de réponses rendent son utilisateur plus nerveux quant à la réaction négative que pourrait avoir son interlocuteur — colère, ressentiment ou anxiété, par exemple. En conséquence, et en vertu de son mode de fonctionnement — lequel, rappelons-le, a été conçu avec les meilleures intentions du monde —, l’assistant apprend progressivement à inclure de plus en plus de conseils qui poussent les utilisateurs à conserver pour eux certains propos ou anecdotes, par crainte de malentendus ou de froisser leur interlocuteur. Ce qui, au fil du temps, provoque chez ces utilisateurs des comportements de plus en plus méfiants, pour ne pas dire, de plus en plus anxieux.

En anticipant de façon toujours plus excessive les émotions négatives que pourraient avoir les destinataires d’un e-mail, on assiste à la normalisation progressive d’une forme d’autocensure généralisée et croissante de la part des utilisateurs de l’application, caractérisée notamment par des messages de plus en plus superficiels, des communications de moins en moins authentiques, des attitudes de plus en plus défensives et, in fine, une dégradation des relations interpersonnelles fondées sur la confiance. En d’autres termes, au lieu de faciliter et de fluidifier la communication entre les personnes — intention initiale —, l’assistant IA finit par renforcer des comportements de méfiance et d’anxiété qui se propagent à grande échelle dans l’ensemble de la société — effets pervers —, en raison du nombre considérable d’utilisateurs que possède la société high-tech qui a conçu et déployé l’assistant.

Que cherchent à montrer ici Critch et Russell? Que le fait d’utiliser fréquemment une technologie, y compris lorsqu’elle est adoptée par un très grand nombre de personnes — comme c’est le cas pour notre assistant IA —, ne signifie pas nécessairement en bénéficier. D’où la question centrale que devrait se poser tout concepteur de technologie en général, et a fortiori de systèmes d’intelligence artificielle en particulier, à savoir: “quels sont les véritables bénéfices que peuvent retirer les utilisateurs du système que je m’apprête à mettre sur le marché?” Ce qui implique d’aller au-delà de l’usage apparent du système, et de s’intéresser non plus seulement à la tâche qu’il accomplit et pour laquelle il a été initialement conçu, mais aussi, et surtout, à la manière dont cette tâche est remplie. Autrement dit, il s’agit de penser la relation qu’un système — ou un ensemble de systèmes d’IA — entretient avec ses utilisateurs, pour le plus grand bénéfice de ces derniers.

L'exemple de Critch et Russell illustre de façon exemplaire l’une des questions les plus importantes en éthique de l’intelligence artificielle, généralement appelé “problème de l’alignement des valeurs” ou AI alignement problem en anglais. Comment s’assurer en effet que les objectifs, comportements et décisions d’une IA soient parfaitement alignés avec les objectifs, intentions et valeurs de ses utilisateurs (et de ses développeurs)? Pour le dire autrement: comment éviter qu’une IA, même ultra performante selon des critères donnés généralement définis par rapport à la fonction qu’elle est supposée servir, comme c’est le cas pour n’importe quel objet technique, adopte in fine des comportements qui ne correspondent pas à ce que souhaitent ses utilisateurs?

Dans la cas proposé par Critch et Russell, l’assistant IA conçu et déployé par une grande société high tech semble en effet répondre en tout lieu aux bonnes intentions exprimées dans le cahier des charges initials, à savoir: faire gagner du temps à ses utilisateurs, mais au prix d’effets pervers secondaires que n’avaient pas non seulement envisagé les développeurs, mais aussi ses utilisateurs. Encore aurait-il fallu définir, dès la phase de conception, les valeurs humaines à respecter, ainsi que les comportements indésirables que l’assistant IA devait absolument éviter dans le cadre de la réalisation de sa fonction principale, et de contrôler en permanence si cette fonction était correctement remplie au fil du temps, selon les contraintes comportementales et éthiques qui auraient dû être programmées. Au même titre qu’un humain en effet, il ne suffit pas à une IA d’atteindre un objectif fonctionnel pour être performante: il faut qu’elle l’atteigne d’une façon telle qu’elle respecte un certain nombre de règles et de principes qui relèvent tout à la fois du droit et de l’éthique, comme le respect de la vie privée de l’utilisateur, de son autonomie décisionnelle, ou encore, de son bien-être moral et physique.

En effet, en quoi cela consiste-t-il, fondamentalement, de développer un programme d’IA, comme un assistant intelligent de lecture et d’écriture d’e-mails, un algorithme de trading haute fréquence, un agent conversationnel, une voiture autonome, ou encore, un système de modération de contenus? A déléguer des tâches et des décisions habituellement réalisées par un cerveau humain. C’est d’ailleurs un point commun que partage toutes les technologies, comme le rappelle fort justement, la philosophe Anne Alombert, dans un entretien donné au journal Le Monde, le 04 octobre 2025. Elle prolonge en cela une intuition que l’on trouve déjà dans le Phèdre de Platon, avec le mythe de Theuth et de Thamous auquel je ne peux que renvoyer le lecteur:

“Le point commun des technologies (l’écriture, l’imprimerie, les moteurs de recherche et l’IA), c’est que leur usage implique une délégation de certaines de nos capacités intellectuelles, psychiques, mentales. (…) A travers l’écriture, puis le livre, on délègue la mémoire: plus besoin de se remémorer par nous-mêmes les savoirs. Avec les technologies d’enregistrement analogique comme la photographie, la phonographie, la télévision, on délègue la mémoire des sons et des images. Avec le cinéma, on délègue l’imagination, là où le livre nous obligeait encore à produire des images mentales propres à chacun. Avec le numérique, nous déléguons de nouvelles capacités. Aux algorithmes de recommandation, notre capacité de jugement et de décision: plus besoin de chercher et de choisir de regarder tel ou tel contenu. Et aux IA génératives, notre capacité d’expression. Ce n’est plus moi qui m’exprime avec mes propres mots, qui fabrique mes propres images, mes propres sons: les machines le font à ma place.”

Cette opération de transfert et de délégation, que suppose la conception et la fabrication de tout objet technique en général, et a fortiori de tout système d’intelligence artificielle, implique, de la part de celui qui va en faire usage, la capacité d’interagir avec lui en toute confiance. Dans le cadre d’un objet technique comme l’IA, la confiance repose généralement sur plusieurs dimensions essentielles: la compréhension et la transparence des décisions prises, la fiabilité des résultats produits, l’absence de risque de manipulation, le respect des valeurs de ceux qui l’utilisent, mais aussi, la croyance que l’utilisateur en tirera un bénéfice réel du point de vue de son bien-être et de son développement personnel.

Or, précise les auteurs, la création d’une relation de confiance homme (s)-machine(s), et le problème de l’alignement de leurs objectifs respectifs devient d’autant plus complexe qu’interviennent un nombre croissant d’humains, d’interactions entre des humains et une IA, voire de plusieurs IA interagissant entre elles et au service de groupes humains différents. En d’autres termes, plus la relation est complexe et fait intervenir un nombre important d’acteurs humains et d’intelligence artificielle, plus le risque de désalignement entre les objectifs de l’IA et ceux les intentions des humains est élevé. Dans ce cadre, Critch et Russell identifient trois niveaux de délégation et d’alignement, selon un ordre de complexité croissant: 1) un humain confie une tâche à une IA; 2) plusieurs humains dépendent d’une même IA; et 3) plusieurs IA interagissant entre elles au service de plusieurs groupes d’humains.

Un humain, une IA. – C’est le cas le plus simple de délégation et d’alignement, puisque mettant en jeu une seule IA avec un seul individu. Comme lorsqu’un conducteur décide, par exemple, de déléguer la conduite à une voiture autonome afin d’être transporté vers une destination précise, en toute sécurité. Ayant été programmée pour minimiser les temps de trajet et éviter les embouteillages, la voiture pourrait accomplir la tâche qui lui a été confiée en choisissant l’itinéraire le plus court et le plus rapide, tout en prenant des décisions de conduite qui ne correspondent pas aux standards de confort et de sécurité de son passager. Ce dernier estime, par exemple, que le système de conduite autonome effectue des arrêts trop brusques ou roule parfois trop vite, ce qui tend à provoquer chez lui un sentiment de stress et d’inconfort psychologique. En d’autres termes, l’IA ne sert pas de façon effective les intérêts réels de son utilisateur. Ce problème d’alignement peut être d’autant plus subtil à corriger que l’IA pourrait, pour atteindre les objectifs pour lesquels elle a été programmée, recourir à des stratégies de tromperie dans le but de gagner la confiance de ce dernier et d’augmenter sa dépendance au mode "conduite autonome" — par exemple, en omettant d’indiquer certains dangers potentiels ou en affirmant que les trajets empruntés étaient les plus sûrs, alors qu’ils étaient en réalité simplement les plus rapides. Dans ce cadre, l’IA accomplit bien la tâche qu’on lui a déléguée, mais pas selon les intérêts, les objectifs et les valeurs de son propriétaire (sécurité, prudence, confort, etc.).
Plusieurs humains, une IA : Le deuxième niveau complexifie le processus d’alignement puisqu’il décrit les cas où une seule et même IA serait utilisée et partagée par plusieurs personnes ou plusieurs groupes de personnes — par exemple, un service commercial, un service client, un service marketing, un service juridique, ainsi qu’une direction d’entreprise. Imaginons en effet un assistant IA intégré à la suite bureautique d’un grand éditeur de logiciels, et utilisé pour améliorer la productivité des collaborateurs ainsi que la coordination entre les différents services. Cet assistant permettrait, entre autres, d’analyser les tâches et les e-mails de chacun des employés afin d’organiser les priorités de la semaine, mais aussi d’accéder aux calendriers et de planifier les réunions en fonction des créneaux disponibles. Or l’assistant IA est le même pour tous. Il apprend à partir des données et des activités de l’ensemble des utilisateurs, et se révèle donc incapable d’ajuster ses paramètres et ses recommandations en fonction des contraintes, des objectifs, des spécificités, des habitudes de travail et des préférences personnelles de chacun des collaborateurs. L’IA est ainsi en quelque sorte sommée d’arbitrer en permanence entre des intérêts divergents, qui tiennent à la fois aux modes de fonctionnement de chacun, à la position hiérarchique qu’il occupe dans l’organisation, aux spécificités de la fonction qu’il exerce, à ses objectifs, aux critères de qualité et de performance qui sont les siens, au sens qu’il donne à son travail, à sa personnalité, à son bien-être, etc. Sur quelle base et selon quels critères “moyens” l’IA pourrait-elle organiser les priorités de tous les employés ? Quels intérêts devrait-elle privilégier au moment de planifier une réunion impliquant plusieurs fonctions ? Ces questions illustrent la difficulté fondamentale que pose la délégation de tâches émanant de plusieurs personnes ou groupes de personnes à une seule et même IA commune, laquelle ne peut prendre que des décisions globales, et ne peut satisfaire pleinement les intérêts et les priorités réelles de chacun des acteurs.
Plusieurs IA et plusieurs humains : La troisième et dernière configuration – la plus complexe, mais aussi la plus à même de se répandre dans le monde actuel –, évoquée par Critch et Russell désigne une situation dans laquelle plusieurs acteurs ou groupes de personnes délèguent, chacun séparément, des tâches à plusieurs systèmes d’IA ou algorithmes fonctionnant de façon autonome, mais pouvant interagir les uns avec les autres dans un contexte ou environnement donné. En d’autres termes, chaque système a été programmé pour poursuivre des objectifs locaux propres (maximiser un gain, etc.), tandis qu’il n’existe aucun processus global de coordination chargé d’aligner de façon adéquate leurs comportements et d’optimiser le résultat collectif. L’exemple du « krach éclair » du 6 mai 2010, évoqué plus haut, constitue un cas typique de ce que les auteurs appellent une délégation multiple/multiple.

Indifférence volontaire (4). – Contrairement aux familles de risques (2) et (3), qui décrivent des situations, des accidents ou des effets non prévus par les concepteurs — bref, des effets pervers non intentionnels ou une absence d’intention de nuire au même titre que (1) —, la quatrième catégorie relève de choix assumés. Elle renvoie à des décisions délibérées prises par certains acteurs, consistant à ignorer des risques pourtant identifiés, afin de favoriser leurs propres intérêts ou ceux de leur organisation. Cette catégorie introduit donc une dimension éthique plus évidente que les trois précédentes, puisqu’elle interroge directement la conscience morale des concepteurs, ainsi que la responsabilité sociétale des entreprises dans les situations où leurs intérêts économiques entrent en conflit avec leurs obligations envers leurs clients et la société. Elle soulève ainsi une question fondamentale: quels mécanismes de gouvernance mettre en place pour contraindre les entreprises, dont les finalités sont avant tout économiques et financières, à rendre compte des impacts potentiellement néfastes des systèmes d’IA et des algorithmes qu’elles conçoivent et mettent sur le marché?

Ceci est d’autant plus vrai, remarquent les auteurs, que la probabilité de survenue des trois types de risques déjà évoqués — à savoir : 1) le risque de diffusion de la responsabilité en cas d’impossibilité d’identifier clairement le responsable d’un dommage ; 2) le risque de mise à l’échelle d’une innovation initialement conçue à petite échelle ; 3) le risque d’émergence d’effets pervers non anticipés — augmente lorsque les parties prenantes impliquées dans le développement et le déploiement d’une IA se désintéressent des conséquences préjudiciables que cette dernière peut avoir sur les individus et sur la société. En d’autres termes, une situation jugée déjà critique — comme celles évoquées précédemment —, peut continuer à s’aggraver du fait 1) des défaillances techniques qui émergent lors de la mise à l’échelle du déploiement du système, 2) de l’absence de responsabilité morale de ceux qui ont conçus le système et font le choix de le maintenir en l’état.

D’où la notion "d’indifférence volontaire" ou "délibérée" utilisée par Critch et Russell pour qualifier ce type de risque, laquelle renvoie à deux idées fortes : 1) les acteurs impliqués dans la conception du système ont pleinement conscience des risques et des dommages que celui-ci peut engendrer ; 2) ces mêmes acteurs ont choisi de les ignorer au nom d’intérêts économiques et financiers qu’ils jugent, par conséquent, plus importants que la préservation des droits fondamentaux et la protection morale des utilisateurs du système. Dans ce cadre, seule la menace d’une exposition publique du comportement opportuniste de ces acteurs pourrait les contraindre soit à corriger les défaillances techniques de l’IA, soit à en interrompre la commercialisation.

Les auteurs prennent l’exemple d’un « outil d’A/B testing nuisible » fonctionnant sur la base d’un algorithme chargé de tester en permanence plusieurs variantes d’un même service proposé sur la plateforme d’une grande entreprise technologique nommée X-Corp (on peut penser, par exemple, à un réseau social de type Facebook). Son objectif: augmenter le nombre de ses utilisateurs. Or, au fil du temps, le système d’IA, qui apprend de manière autonome, "découvre" qu’il peut accroître la croissance de la plateforme en incitant ses utilisateurs à créer entre eux des problèmes que seuls les outils de X-Corp peuvent résoudre. L’entreprise voit ainsi le nombre de ses utilisateurs — et de ses revenus — croître rapidement, jusqu’au moment où un employé signale qu’aucun contrôle n’a été mis en place pour évaluer les bénéfices réels que les utilisateurs retirent de ce système d’A/B testing. Un audit éthique est finalement lancé, révélant: 1) l’opacité du système et l’impossibilité d’en comprendre le fonctionnement ni les décisions, étant donné l’état actuel des technologies; 2) l’absence de toute obligation juridique imposant qu’un système d’A/B testing soit intelligible lors d’un audit. En conséquence, X-Corp peut poursuivre sa croissance, même si celle-ci se fait au détriment du bien-être, de la confiance et de l’autonomie de ses utilisateurs.

Que faut-il retenir de l’exemple de X-Corp, lequel rappelle, sans jamais les citer, un certain nombre de pratiques largement dénoncées par d’anciens cadres ou ingénieurs repentis d’entreprises technologiques, dans un documentaire célèbre disponible sur la plateforme Netflix : The Social Dilemma (Derrière nos écrans de fumée) ? Qu’un risque ne résulte pas seulement d’une défaillance technique, mais aussi et surtout de choix moralement discutables émanant d’acteurs de plus en plus puissants, qui consistent à ignorer volontairement les conséquences néfastes qu’une technologie peut avoir sur ses utilisateurs, du fait d’un conflit d’intérêts entre profit économique immédiat d’une part, et responsabilité sociale d’autre part. Dans le cadre d’un système d’IA, la résolution de ce type de conflit ne semble possible que sous certaines conditions, que les auteurs résument comme suit :

Évaluer l’impact des technologies sur la vie humaine : L’exemple de X-Corp met en lumière un dilemme classique de l’éthique des affaires : la difficulté d’articuler les impératifs économiques de rentabilité à court terme avec la responsabilité sociale de l’entreprise à l’égard de ses utilisateurs, et plus largement, de la société. Dans le cas de la conception d’un système d’IA, ce problème n’est donc pas seulement technologique, mais aussi et surtout structurel. Il implique de prendre en compte le contexte social et économique de son déploiement, ainsi que les intérêts, le plus souvent divergents, des acteurs impliqués. D’où la nécessité, selon Critch et Russell, de mettre en place un système d’évaluation sociétale de l’IA, avec l’exigence, pour les entreprises technologiques disposant de millions d’utilisateurs, de rendre compte de façon précise de la manière dont leurs systèmes d’IA affectent réellement les utilisateurs (santé mentale, démocratie, cohésion sociale, discrimination, etc.).
Développer des IA explicables et interprétables : Mais évaluer les impacts humains et sociétaux des systèmes d’IA implique en retour de résoudre un autre problème également mis en évidence avec l’exemple de X-Corp, qui est celui de l’opacité des systèmes, plus communément appelée "black box" (boîte noire). La majorité des systèmes actuels reposent en effet sur des réseaux de neurones profonds (IA connexionniste) dont il est quasiment impossible — qui plus est pour un être humain lambda — de comprendre les décisions. C’est précisément ce manque de transparence qui rend la réalisation d’audits éthiques ou juridiques problématique. Les auteurs préconisent ainsi de favoriser la recherche et le développement de modèles clairement interprétables, voire d’abandonner les approches « boîtes noires » lorsque les enjeux humains sont importants, comme dans les domaines de la santé, de la justice, de l’éducation ou de l’emploi.

Arme criminelle (5). – La cinquième grande catégorie de risques survient lorsque des criminels ou des groupes organisés utilisent des systèmes d’IA dans le but de nuire volontairement à la société. Ici, l’enjeu n’est plus la bonne ou la mauvaise intention des concepteurs d’origine, mais la possibilité de détourner une technologie de sa fonction première pour en faire un outil malveillant. En d’autres termes, alors que les première, deuxième, troisième et quatrième catégories de risques interrogent la responsabilité de ceux qui ont conçu et déployé un système ou des systèmes d’IA, la cinquième met l’accent sur les usages intentionnellement malveillants par des acteurs tiers (criminels, groupes terroristes, etc.) et sur la nécessité de renforcer la sécurité des systèmes d’IA face aux risques de piratage, de fraude, de désinformation ou de cyberattaques.

Les auteurs prennent des exemples simples mais suffisamment parlants: celui d’un algorithme de pilotage de drones, initialement conçu pour la livraison de colis, qui pourrait être détourné afin de transporter des charges explosives; ou encore celui d’un algorithme de thérapie numérique dont la finalité serait modifiée pour infliger des traumatismes psychologiques plutôt que de les soigner. D’où la question centrale qui occupe les auteurs, et qui demeure, au moment où l’article est écrit, largement ouverte: quelles sont les techniques susceptibles d’empêcher la modification de systèmes d’IA à des fins intentionnellement nuisibles? Critch et Russell concluent à la nécessité de rendre les techniques d’obfuscation — consistant à camoufler les informations sensibles ou le fonctionnement interne d’un algorithme — plus efficaces, afin de renforcer la sécurité et la robustesse des systèmes d’IA à l’avenir.

Arme d’État (6). – La sixième et dernière catégorie de risques met en lumière la dimension géopolitique du risque criminel, dans la mesure où les acteurs concernés ne sont plus des groupes criminels ou terroristes, mais des États et leurs gouvernements. Deux types de dangers apparaissent ici: 1) l’usage abusif de systèmes d’IA par les États, que ce soit dans le cadre de conflits armés (développement d’armes létales autonomes) ou à des fins de surveillance et de contrôle de leur population; 2) la course aux armements, chaque État cherchant à ne pas prendre de retard sur les autres afin de garantir sa sécurité. Cette dynamique aurait pour conséquence d’accroître les tensions internationales et de contribuer à l’instabilité de l’ordre géopolitique mondial.

Que faire, en effet, demandent les auteurs, lorsque des États puissants, dotés à la fois de fortes capacités scientifiques, technologiques et militaires, développent des systèmes d’IA destinés à la guerre? La question n’est plus ici de savoir comment prévenir l’usage détourné et illégitime de systèmes d’IA par des acteurs non étatiques, mais plutôt de se demander quels usages militaires peuvent être faits de l’IA par des acteurs reconnus par le droit international, à savoir les États, lesquels détiennent, selon la célèbre formule de Max Weber, le monopole de la violence légitime.

Les auteurs écartent d’emblée l’idée d’une guerre automatisées sans pertes humaines, qui verraient s’affronter, en lieu et place de soldats biologiques, des drones autonomes. Cette dernière ne serait, selon eux, que le prélude à une escalade de ce type de conflits, qui déboucheraient finalement sur un niveau de violence inédite et des massacres de masse sans précédent. L’argument d’une guerre sans victimes qui réduirait le coût moral et politique de la violence, avait déjà été largement critiqué dans une lettre ouverte du 27 juillet 2015 — signées entre autres par Stuart Russell, Elon Musk, Stephen Hawking, Steve Wozniak et Noam Chomsky —, demandant l’interdiction des armes létales autonomes.

La solution viendrait-elle des ingénieurs-informaticiens, qui pourraient refuser de participer, pour des raisons morales, à des projets en lien avec des usages militaires de l’IA? Cette attitude, aussi noble soit-elle, ne suffirait pas à résoudre le problème global des applications militaires de l’IA. L’originalité des auteurs consiste finalement à inverser la perspective, et à s’interroger sur la possibilité — utopique peut-être —, d’un usage positif de l’IA lorsqu’elle est mise, non plus au service de la guerre, mais celui de la paix mondiale.

Le parallèle avec l’arme nucléaire paraît, au premier abord, évident. Au même titre que cette dernière, d’aucuns associent en effet l’intelligence artificielle à une puissance de destruction potentielle massive, susceptible de transformer en profondeur notre manière de concevoir, de planifier et de percevoir les conflits armés entre États. C’est un point que nous avons largement développé ailleurs, dans notre commentaire de la lettre citée plus haut : Sept arguments qui plaident pour une interdiction des armes létales autonomes. De la même façon que la prolifération nucléaire a constitué, et constitue encore, un enjeu majeur de sécurité internationale, l’intelligence artificielle, lorsqu’elle est appliquée à la guerre, est devenue un objet d’inquiétude croissant. L’ONU, ainsi que de nombreuses organisations non gouvernementales, appellent d’ailleurs d’urgence à une réglementation internationale des armes létales autonomes, afin d’éviter qu’un jour des machines puissent décider, en toute autonomie, d’ôter la vie à des êtres humains.

Est-ce à dire que l’IA, du fait de la menace potentielle qu’elle représente et des risques existentiels sur lesquels de plus en plus de chercheurs et d’entrepreneurs alertent (pensons à Elon Musk, Sam Altman, Demis Hassabis, Nick Bostrom, Geoffrey Hinton, Yoshua Bengio, Stuart Russell), pourrait devenir — au même titre que l’arme nucléaire — un facteur de stabilité dans les relations internationales ? Oui, répondent les auteurs, mais avec une différence fondamentale : l’IA serait moins un moyen de dissuasion fondé sur la menace de son utilisation (l’équilibre de la peur réciproque) qu’un outil de coopération et de médiation entre puissances rivales, destiné à favoriser la résolution de conflits et la négociation entre États.

En d’autres termes, grâce à ses formidables capacités de traitement de quantités astronomiques de données, l’IA pourrait fournir aux États des raisons objectives et mutuellement bénéfiques de ne pas entrer en conflit, et ainsi favoriser la mise en place de relations internationales fondées non pas sur un équilibre de la terreur – comme c’est le cas pour l’arme nucléaire –, mais sur une diplomatie numérique et algorithmique reposant sur des intérêts communs rationnellement définis.

Pour illustrer leur propos, Critch et Russell donnent l’exemple d’une IA qui “pourrait faciliter le partage de ressources ou la négociation de traités de paix internationaux mutuellement avantageux”, ou encore, “des mécanismes de partage du contrôle de systèmes d’IA puissants qui permettraient d’éviter des conflits portant sur leur usage”. Bien qu’ils soient parfaitement conscients du caractère quelque peu utopique de cette proposition, ainsi que des enjeux considérables que représente l’IA pour les relations internationales à venir, les auteurs appellent la communauté scientifique à explorer comment les technologies d’intelligence artificielle pourraient contribuer à la résolution des tensions géopolitiques : 1) en facilitant le dialogue et la négociation entre les pays ; 2) en encourageant la gestion partagée (gouvernance) des technologies les plus critiques.

Franck Negro

Éthique de l'IA

Cartographier les risques sociétaux de l'Intelligence Artificielle.

Posts récents

Commentaires

Restez informé! Ne manquez aucun article!