francknegro1900
il y a 7 heures11 min de lecture
Mesurer l’autonomie opérationnelle des agents IA : jusqu’où automatiser le travail humain ?
Limites des benchmark actuels . – Le 30 mars 2025 paraissait sur la plateforme en ligne arXiv un article scientifique rédigé par une équipe de chercheurs travaillant pour une organisation de recherche indépendante à but non lucratif, spécialisée dans l’évaluation des capacités des systèmes d’intelligence artificielle : METR (Model Evaluation and Threat Research). L’ordre de mission de cette organisation est d’évaluer, en toute indépendance, les performances et les capacités d
