Mesurer l’autonomie opérationnelle des agents IA : jusqu’où automatiser le travail humain ?
- francknegro1900
- il y a 23 heures
- 11 min de lecture
Limites des benchmark actuels. – Le 30 mars 2025 paraissait sur la plateforme en ligne arXiv un article scientifique rédigé par une équipe de chercheurs travaillant pour une organisation de recherche indépendante à but non lucratif, spécialisée dans l’évaluation des capacités des systèmes d’intelligence artificielle : METR (Model Evaluation and Threat Research). L’ordre de mission de cette organisation est d’évaluer, en toute indépendance, les performances et les capacités des systèmes d’intelligence artificielle contemporains.
La grande majorité des évaluations des modèles d’IA générative reposent aujourd’hui sur des tests standardisés, appelés "benchmarks". Ces tests, largement utilisés par la communauté de recherche, sont utiles non seulement pour mesurer les performances d’un modèle dans des domaines précis, mais aussi — et surtout — pour comparer les modèles entre eux à partir d’un ensemble de tâches et de critères clairement définis. Ils prennent généralement la forme de questions à choix multiples (QCM), ou de tests dits exam-style, auxquels le modèle doit répondre en sélectionnant la bonne réponse parmi plusieurs propositions.
Parmi les benchmarks les plus utilisés figure le benchmark MMLU (Massive Multitask Language Understanding), destiné à évaluer les grands modèles de langage tels que Gemini (Google), ChatGPT (OpenAI) ou Claude (Anthropic). Ce benchmark vise à tester à la fois leur capacité à comprendre le langage naturel, à répondre correctement à un large éventail de questions factuelles couvrant 57 disciplines différentes (mathématiques, histoire, droit, physique, chimie, biologie, médecine, philosophie, etc.), ainsi que leur aptitude à raisonner de manière logique ou à résoudre des problèmes mathématiques.
Toutefois, si ce type de benchmark se révèle pertinent pour évaluer certaines capacités cognitives fondamentales — telles que la compréhension du langage, le raisonnement logique ou la mobilisation de connaissances factuelles dans une grande diversité de disciplines universitaires —, il apparaît en revanche peu adapté pour mesurer la capacité des systèmes d’IA à réaliser des tâches longues, complexes et situées dans des contextes de travail concrets. Autrement dit, ces benchmarks ne permettent de répondre que très imparfaitement à la question de savoir si les modèles évalués seraient capables d’accomplir, de manière fiable et autonome, des tâches habituellement réalisées par des humains dans des cadres professionnels déterminés.
C’est précisément ce constat qui constitue le point de départ de l’article publié par les chercheurs du METR le 30 mars 2025 sur arXiv, intitulé Measuring AI Ability to Complete Long Tasks. L’objectif de cette étude est de mesurer la capacité d’agents IA à effectuer, de façon autonome, des tâches longues habituellement réalisées par des humains, et d’analyser l’évolution de ces performances entre 2019 et le début de l’année 2025.
Le terme "autonome" est ici à comprendre au sens usuel, à savoir : "capable de mener seul une tâche complète sans recourir à l’aide d’un humain". Cette autonomie suppose la réalisation d’un ensemble d’actions intermédiaires, telles que : planifier les étapes nécessaires à la réalisation de la tâche ; exécuter les actions planifiées ; analyser, corriger et ajuster, si nécessaire, le travail intermédiaire produit ; trouver des solutions de contournement en cas d’obstacle ; et enfin vérifier et achever la tâche initialement visée. C’est en ce sens que la notion « d’agent » est mobilisée dans l’article, plutôt que celle "d'outil" : il ne s’agit plus seulement d’assister un humain dans l’exécution d’une tâche, mais bien de déléguer à une entité logicielle et algorithmique la prise en charge complète de cette tâche, supposée être réalisée de manière autonome.
La notion de « time horizon » ou horizon temporel de tâche. – Pour ce faire, les auteurs de l’article ont mesuré les performances des agents IA en s’appuyant sur un indicateur clé qu’ils appellent le « time horizon », ou "horizon temporel de tâche" en français. De quoi s’agit-il exactement ? Il correspond au temps qu’un humain mettrait à accomplir une tâche qu’un agent IA réussit à effectuer dans environ 50 % des cas (taux de réussite de 50 %).
Pour prendre un exemple concret, imaginons la tâche « résolution d’un bug logiciel », qui aurait nécessité vingt minutes de travail de la part d’un humain — en l’occurrence, ici, un développeur — pour être entièrement accomplie. Dans ce cadre, le "time horizon" d’un agent IA ayant réussi à réaliser la tâche serait également de vingt minutes, même si l’agent en question a mis deux fois moins de temps pour y parvenir. C’est donc le "temps humain", en tant qu’indicateur de performance, qui sert ici de référence, puisque les deux questions essentielles auxquelles l’étude tente de répondre sont les suivantes :
Dans quelle mesure un agent IA peut-il accomplir entièrement, de façon autonome et fiable, des tâches longues et complexes telles qu’elles sont réalisées par des humains ?
Comment le « time horizon » des agents IA — c’est-à-dire leur capacité à prendre en charge des tâches habituellement réalisées par des humains, selon le critère du temps qu’il a fallu à ces derniers pour les accomplir — a-t-il évolué entre 2019 (GPT-2) et le début de l’année 2025 (o1, Claude 3.7 Sonnet) ?
Il est important de mentionner d’emblée que l’étude ne mesure la performance des agents IA qu’à partir de tâches appartenant toutes au secteur de l’ingénierie logicielle, et issues de trois référentiels spécifiques : le HCAST (Human-Calibrated Autonomy Software Tasks), le SWAA (Software Atomic Actions) et le RE-Bench (Research Engineering Benchmarks). Les 170 tâches ainsi évaluées, malgré leur variété et leur capacité à rendre compte du travail réel effectué au quotidien par des ingénieurs logiciels et des chercheurs, ne peuvent que très difficilement servir de benchmark pour des domaines autres que celui du développement logiciel. C’est donc dans ce cadre précis qu’il convient, en tout premier lieu, d’interpréter les résultats de l’étude. Une limite que les auteurs assument pleinement, mais qui est le plus souvent occultée par des observateurs externes.
Or, l’étude montre — compte tenu du périmètre de tâches retenues — que le « time horizon », autrement dit la capacité des agents IA à réaliser des tâches toujours plus longues de façon autonome, « a augmenté de manière exponentielle au cours des six dernières années, avec un temps de doublement d’environ sept mois », dans les cas où le taux de réussite est de 50%. De manière plus concrète, si un modèle comme GPT-2 ne pouvait résoudre que des tâches très courtes, de l’ordre de quelques secondes, en 2019, il apparaît que des agents IA tels que o1 (OpenAI) ou Claude 3.7 Sonnet (Anthropic) sont aujourd’hui capables de réaliser des tâches d’environ cinquante à soixante minutes au moment de la publication des résultats de l’étude, début 2025.
Peut-on pour autant déceler ici une tendance de long terme comparable à la fameuse loi de Moore — qui, d’ailleurs, n’en est pas véritablement une —, selon laquelle la puissance des microprocesseurs et, plus largement, les performances des ordinateurs doubleraient tous les deux ans ? De la même manière, peut-on extrapoler les résultats de l’étude du METR et prédire que, dans les années à venir, le niveau d’autonomie des agents IA, mesuré à l’aune de la longueur des tâches qu’ils seront de plus en plus capables de réaliser seuls, va continuer à doubler tous les sept mois ? Et surtout, quelles conclusions peut-on en tirer du point de vue de l’évolution du travail et du marché de l’emploi dans les années à venir ?
Si les auteurs se gardent bien d’énoncer des conclusions trop catégoriques, ils n’hésitent pas à souligner l’hypothèse vers laquelle semblent inévitablement conduire les résultats de l’étude :
« L’extrapolation de cette tendance prédit que, dans moins d’une décennie, nous verrons des agents d’IA capables d’accomplir de manière indépendante une grande partie des tâches logicielles qui prennent actuellement des jours ou des semaines aux humains. »
Cette hypothèse est d’ailleurs en cohérence avec certaines déclarations récentes de dirigeants du secteur. Ainsi, le co-fondateur d’Anthropic, Dario Amodei, déclarait lors d’un échange avec le CEO de DeepMind, Demis Hassabis, à l’occasion de la 56ᵉ réunion annuelle du Forum économique mondial de Davos, le 20 janvier 2026, que dans un horizon de six à douze mois, des modèles comme Claude pourraient accomplir « la majeure partie, voire la totalité, de ce que les ingénieurs logiciels font de bout en bout ». Pour Dario Amodei, cette délégation progressive — mais extrêmement rapide — des activités de recherche et de développement à l’IA elle-même constituerait le cœur d’une dynamique d’accélération, reposant sur un mécanisme auto-entretenu : des modèles d’IA de plus en plus autonomes contribuant directement à la conception de leurs successeurs, toujours plus performants, jusqu’à l’émergence hypothétique d’une superintelligence à l’horizon 2027.
Ce que révèle donc avec clarté l’étude du METR, et que confirment de manière plus prospective certains acteurs majeurs du secteur, tels que Dario Amodei, Demis Hassabis ou Sam Altman, c’est l’existence d’une tendance de fond : celle selon laquelle les agents IA continueront, dans les mois et les années à venir, à prendre en charge un nombre croissant de tâches jusqu’alors réservées aux développeurs dans l’exercice de leur fonction. Et rien ne permet d’exclure que ce processus d’automatisation s’étende, à terme, à un très grand nombre d’autres métiers, dans la mesure où — et c’est là l’un des principaux enseignements de l’étude — la longueur des tâches que les IA sont capables d’accomplir de manière autonome semble suivre une dynamique de croissance exponentielle, avec un doublement d’environ sept mois. Si cette tendance devait se poursuivre, certaines IA pourraient ainsi être en mesure d’accomplir, à l’horizon 2030, des travaux équivalents à un mois de travail humain.
Vers un benchmark multi-agents. - Bien que l’objectif explicite du texte consiste à mesurer l’évolution de l’autonomie opérationnelle des agents IA sur des tâches précises, il fournit en même temps un cadre empirique particulièrement intéressant pour comprendre et anticiper l’ampleur ainsi que la vitesse du processus d’automatisation du travail humain. Quelles sont néanmoins, de ce point de vue, les limites de l’approche développée par le METR ? Peut-on imaginer, en reprenant les intuitions de base de l’équipe de chercheurs, une évaluation des performances qui ne serait plus seulement centrée sur des tâches isolées confiées à des développeurs ou à des ingénieurs logiciels, mais qui intégrerait également le cadre organisationnel dans lequel ces tâches sont réalisées, lorsqu’elles sont réparties et synchronisées entre plusieurs individus dans le cadre de la gestion d’un projet tout entier ? En d’autres termes, peut-on concevoir et évaluer des environnements multi-agents susceptibles de refléter les caractéristiques structurelles fondamentales du fonctionnement d’une organisation, telles que la division du travail, les processus de coordination ou encore les mécanismes de contrôle ?
Si l’indicateur d’autonomie du "time horizon" se révèle pertinent pour mesurer la capacité croissante des agents IA à prendre en charge des tâches individuelles de plus en plus longues — notamment dans le domaine du développement logiciel —, il ne rend toutefois pas suffisamment compte du travail collectif tel qu’il est effectivement réalisé au sein des organisations.
Au sens informatique du terme, un agent IA est un programme capable d’analyser des données, d’apprendre à partir de celles-ci, de raisonner, de résoudre des problèmes, de prendre des décisions et d’agir de manière autonome, que ce soit au sein d’un environnement virtuel — un ordinateur, un réseau ou un système informatique —, ou d’un environnement physique (un entrepôt) ou social (une résidence pour personnes âgées). Les agents analysés par le METR sont principalement des agents logiciels, puisqu’il s’agit de modèles de langage (Large Language Models), tels qu’ils ont évolué entre 2019 et 2025. Pour agir de façon autonome, ces agents doivent être dotés de certaines caractéristiques fondamentales, telles que la capacité à percevoir leur environnement à travers des entrées d’information, ainsi que des mécanismes de traitement leur permettant de sélectionner et d’exécuter l’action la plus appropriée sans intervention humaine directe. Ils doivent également être capables d’adapter leur comportement en fonction des changements survenant dans leur environnement, mais aussi à partir des expériences et interactions passées.
Or, lorsque l’on parle aujourd’hui d’agents IA, il est le plus souvent question non seulement d’agents autonomes poursuivant un objectif donné, mais également de systèmes dans lesquels plusieurs agents interagissent entre eux afin de réaliser des ensembles de tâches plus complexes, nécessitant coopération, coordination et répartition du travail. Au cœur de la révolution actuelle de l’agentique se trouvent ainsi non seulement les avancées majeures réalisées ces dernières années dans le domaine de l’intelligence artificielle — et plus particulièrement de l’IA générative —, mais également l’essor d’architectures distribuées fondées sur l’échange automatisé de données, de commandes et de requêtes, rendu possible par les API (Application Programming Interfaces). Ces interfaces permettent à des agents logiciels d’échanger des informations et d’interagir de manière standardisée, rendant possible le fait qu’un agent puisse déléguer ou orchestrer des actions qu’il n’est pas lui-même capable de réaliser.
Il conviendrait ainsi de passer d’une approche centrée sur des unités de travail isolées, effectuées dans le cadre d’un métier donné — comme corriger un bug, écrire un script ou analyser le code d’un programme —, à une approche plus transversale, axée sur des processus intégrant et coordonnant des tâches lorsqu’elles s’inscrivent dans un flux de travail impliquant plusieurs acteurs. La question ne serait alors plus : "Quelle est la capacité d’un agent IA à prendre en charge seul, et de bout en bout, une tâche habituellement réalisée par un humain dans l’exercice de son travail ?", mais plutôt : "Quelle est la capacité d’un système multi-agents à prendre en charge de manière autonome la réalisation d’un projet dans son ensemble, en accomplissant non seulement de façon adéquate les tâches nécessaires, mais également en mettant en œuvre des fonctions de plus haut niveau, telles que la collaboration, la coordination et le contrôle ?"
Vers une typologie des niveaux d’automatisation. - En conclusion, on pourrait imaginer quatre niveaux d’analyse de la performance des systèmes d’IA, correspondant à des degrés croissants de complexité organisationnelle. L’évaluation de systèmes mono-agents ou multi-agents se ferait alors en fonction de leur capacité à réaliser, de manière entièrement autonome : une tâche donnée ; un ensemble de tâches relevant d’une fonction ; un ensemble de tâches coordonnées dans le cadre de la gestion de projets plus ou moins complexes ; enfin, un ensemble de tâches et de fonctions coordonnées relevant de la gestion d’une organisation dans son ensemble.
Automatisation de tâches : Il s’agit du niveau analysé par le METR. Une tâche correspond généralement à l’enchaînement et à la coordination d’actions plus ou moins longues et complexes, réalisées par un humain dans le cadre de l’exercice de sa fonction au sein d’une organisation donnée. Par exemple : ouvrir des courriels, les lire, les trier, rediriger les demandes reçues, rédiger des réponses appropriées, puis envoyer ces réponses. À ce niveau, l’enjeu consiste à mesurer la capacité d’un agent IA à prendre en charge, seul et de bout en bout, une tâche isolée.
Automatisation d’un rôle ou d’une fonction : Un rôle ou une fonction peut être décrit comme un ensemble structuré de tâches, elles-mêmes composées d’actions à réaliser. Il ne s’agit plus ici de tâches prises isolément, comme dans le premier cas, mais d’un ensemble de tâches plus ou moins hétérogènes et répétitives relevant d’un même métier ou d’un même rôle au sein d’une organisation. Automatiser un rôle ou une fonction revient donc, pour un agent IA, non seulement à être capable de réaliser l’ensemble des tâches associées à cette fonction, mais aussi à les organiser, à les prioriser et à gérer les dépendances entre elles en fonction d’objectifs donnés.
Automatisation d’un projet collectif : Le troisième niveau ne se situe plus à l’échelle d’un individu isolé ou d’une fonction opérationnelle — ce qui était encore le cas aux niveaux (1) et (2) —, mais à celle d’un collectif de personnes accomplissant chacune des tâches liées à leurs fonctions respectives dans le but de concevoir et de mettre en œuvre un projet commun. Automatiser un projet collectif ne signifie pas nécessairement automatiser l’ensemble des tâches propres à chaque fonction impliquée, mais plutôt coordonner, en fonction d’un objectif partagé, un flux de travail automatisé dans lequel les tâches sont prises en charge par différentes fonctions au sein de l’organisation.
Automatisation d’une organisation : Le quatrième niveau correspond enfin à l’automatisation complète d’une organisation dans son ensemble, incluant ses fonctions opérationnelles – qui contribuent directement à la réalisation et la livraison d’un produit ou d’un service –, ses fonctions support (soutien) –, contribuant au bon fonctionnement des fonctions opérationnelles –, et ses fonctions de direction (management) –, nécessaires à la définition de la stratégie et le déploiement opérationnel des objectifs. À ce stade, il ne s’agit plus seulement de coordonner des tâches ou des projets, mais de piloter l’ensemble des processus organisationnels de manière autonome.
Si les cas (1) et (2) sont largement évoqués par le CEO d’Anthropic dans l’intervention déjà citée plus haut, les cas (3) et (4) sont, quant à eux, abordés dans un article écrit par Sam Altman et publié le 10 juin 2025, intitulé The Gentle Singularity. Dans l’esprit du co-fondateur d’OpenAI, l’expression Gentle Singularity — que l’on peut traduire par "singularité douce" — désigne, dans le cadre d’un récit technosolutionniste et transhumaniste, une transition graduelle vers la superintelligence, susceptible d’aboutir, à terme, à un monde largement débarrassé du travail humain et entièrement pris en charge par des systèmes automatisés. Il écrit ainsi :
« Si nous devons fabriquer le premier million de robots humanoïdes à l’ancienne, mais qu’ensuite ils peuvent gérer toute la chaîne d’approvisionnement — extraire et raffiner les minerais, conduire les camions, faire tourner les usines, etc. — pour construire d’autres robots, qui eux-mêmes pourront construire de nouvelles usines de semi-conducteurs, de nouveaux centres de données, et ainsi de suite, alors le rythme du progrès changera radicalement. »

Commentaires