Chaque nouvelle version d'un modèle de langage (LLM) de pointe par OpenAI, Google ou Anthropic est un événement. Et l'expiration se fait attendre... jusqu'à ce que METR (Model Evaluation & Threat Research), une organisation de recherche à but non lucratif, mette à jour son graphique devenu emblématique. Ce graphique, publié initialement en mars de l'année dernière, joue un rôle majeur dans le débat sur l'IA. Pourquoi est-il si important ? Il suggère que certaines capacités de l'IA progressent de manière exponentielle. Et les modèles les plus récents dépassent même cette tendance déjà impressionnante. C'est le cas de Claude Opus 4.5, la dernière version du modèle le plus puissant d'Anthropic, lancée fin novembre. En décembre, METR a annoncé qu'Opus 4.5 semblait capable d'accomplir de manière autonome une tâche qui aurait pris environ cinq heures à un humain. Cet exemple (vas...) illustre bien le potentiel de ces nouveaux modèles, mais aussi la nécessité de comprendre et d'interpréter correctement les données qui permettent de mesurer ces progrès. Le graphique de METR est donc un outil précieux, mais sa simplicité apparente cache une complexité sous-jacente. Il est crucial de prendre en compte les méthodologies de test, les biais potentiels et les limitations inhérentes à l'évaluation des capacités de l'IA. Une lecture superficielle peut conduire à des conclusions erronées sur l'état réel de l'IA et sur son impact futur. La MIT Technology Review souligne l'importance de décortiquer ce graphique et d'autres indicateurs clés pour saisir les enjeux de l'IA. Elle invite à une analyse critique et nuancée, au-delà des annonces spectaculaires et des simplifications excessives. En bref, ce graphique est un point de départ, pas une conclusion. Il nécessite une expertise pour être correctement interprété et intégré dans une vision globale de l'évolution de l'intelligence artificielle.