Anthropic lance Claude Opus 4.8 en mettant l'accent sur la plus grande 'honnêteté' du modèle face à ses erreurs

The Vergeil y a 2 j

Racks de serveurs dans un centre de données futuriste sous éclairage bleu — Photo: panumas nikhomkhai / Pexels

Anthropic, considéré comme un pionnier en matière de sécurité de l'intelligence artificielle, a présenté jeudi son nouveau modèle phare Claude Opus 4.8. Selon The Verge, l'entreprise a cette fois mis en avant non pas la capacité technique du modèle mais l'accent d'entraînement investi dans le concept d''honnêteté'. La déclaration officielle d'Anthropic indique: 'Nous entraînons tous nos modèles à être honnêtes — par exemple, à éviter de fabriquer des affirmations.'

Parmi les principales innovations de Claude Opus 4.8 figure un outil appelé 'dynamic workflows', une couche de coordination conçue pour orchestrer des sous-agents. Selon les détails relayés par The Verge, le modèle peut modifier dynamiquement le nombre de sous-agents et la répartition des tâches sur la longue sortie d'une tâche. Cela apporte des gains d'efficacité significatifs dans des applications telles que la génération de code complexe, l'analyse de données en plusieurs étapes et les tâches de recherche longues.

Le fondement technique de l'approche de l'honnêteté repose sur la refonte minutieuse du processus RLHF (apprentissage par renforcement à partir de retours humains). Le PDG d'Anthropic, Dario Amodei, lors d'un briefing presse auquel The Verge a assisté, a déclaré: 'Nous travaillions déjà sur l'honnêteté dans nos modèles précédents mais avec Claude Opus 4.8 nous avons appliqué plus strictement une métrique connue dans la communauté IA sous le nom d''effort relatif'.' L'effort relatif mesure à quel point l'effort fourni par le modèle pour une tâche correspond à la complexité réelle de la tâche.

Par exemple, lorsqu'un utilisateur demande au modèle une longue recherche, Claude Opus 4.8 travaille réellement de 30 à 45 minutes selon la complexité de la tâche et la sortie finit par dépasser substantiellement la qualité fournie par les modèles précédents. À l'inverse, si la tâche est simple, le modèle apporte une réponse rapide tout en étant capable de fournir un retour tel que 'je ne pense pas que cette tâche nécessite une recherche plus approfondie.' Selon le contenu relayé par The Verge, cette approche vise à corriger la tendance des modèles précédents à 'prolonger inutilement des tâches simples par un effort excessif.'

Dans les tests de référence, Claude Opus 4.8 obtient des performances comparatives significatives dans le secteur. Selon les déclarations d'Anthropic, le modèle devance le GPT-5 d'OpenAI (environ 72 %) et le Gemini Ultra 3 de Google (environ 75 %) avec un taux de réussite de 78,4 % sur SWE-bench (benchmark d'ingénierie logicielle). Sur les tests académiques MMLU, il a dépassé ses concurrents avec un taux de réussite de 91,2 %. Ces chiffres visent à réduire les obstacles à l'utilisation du modèle dans des domaines tels que le développement logiciel professionnel et la recherche académique.

La stratégie de tarification est également notable. Selon The Verge, la tarification par token de Claude Opus 4.8 est fixée à environ 30 % au-dessus de celle de son prédécesseur Claude Opus 4.7. Concrètement: 25 dollars pour 1 million de tokens d'entrée; 125 dollars pour 1 million de tokens de sortie. Anthropic explique la hausse de prix par la fonctionnalité 'dynamic workflows' et l'investissement supplémentaire dans le processus d'entraînement à l'honnêteté. À titre de comparaison, le tarif d'OpenAI GPT-5 est de 22 dollars par million en entrée; mais GPT-5 ne dispose pas d'une fonctionnalité similaire aux flux de travail dynamiques.

Le processus de test de sécurité a également été mis en avant. Anthropic a soumis le modèle à un exercice d'équipe rouge de 18 mois avant sa mise à disposition publique. Selon les informations relayées par The Verge, les travaux d'équipe rouge ont testé les effets secondaires potentiels du modèle tels que 'aider à la production d'armes biologiques' et 'diffuser des informations politiquement erronées'; ces résultats de test ont été partagés avec l'AISI américain (Institut de sécurité de l'IA). Le CTO d'Anthropic, Tom Brown, a déclaré: 'Nous avons mesuré que le profil de sécurité du modèle est plus strict que celui de GPT-5 et de Gemini Ultra 3; nous le partagerons dans un rapport ouvert.'

Des fonctionnalités supplémentaires pour les clients entreprise ont également retenu l'attention. Claude Opus 4.8 dispose d'une API optimisée pour les environnements de production et les clients peuvent ajuster le comportement du modèle pour leurs applications spécifiques via cette API. Microsoft, en tant qu'investisseur d'Anthropic, a annoncé qu'il intégrerait rapidement ce modèle à Azure; AWS se prépare également à offrir le modèle à ses utilisateurs via Bedrock. The Verge affirme que ce plan de distribution entreprise réduira considérablement les obstacles à l'utilisation réelle du modèle.

Les réactions de la communauté IA sont mitigées. La directrice de recherche en IA de l'Université de Stanford, la Dre Fei-Fei Li, dans des commentaires à The Verge, a déclaré: 'L'approche d'honnêteté d'Anthropic est une direction importante; le fait que les modèles reconnaissent leurs propres limites est une pierre angulaire de la sécurité de l'IA.' En revanche, l'ancien scientifique en chef d'OpenAI Ilya Sutskever a écrit sur X (Twitter): 'Affirmer que les modèles sont honnêtes est un concept difficile à mesurer; le vrai test d'honnêteté est posé par la manière dont le modèle se comporte en utilisation réelle.'

Dans l'ensemble, la sortie de Claude Opus 4.8 peut être lue comme un jalon montrant à quel point les modèles d'IA se concentrent, au-delà des capacités, sur le domaine de la 'qualité comportementale'. Selon le dernier mot de The Verge, l'expérience de production publique du modèle sera façonnée dans les semaines à venir par les retours des utilisateurs. Anthropic dit que le modèle continuera d'évoluer et prévoit d'élargir les capacités du modèle en utilisant de nouvelles données d'entraînement au cours des trois prochains mois. Cet article ne constitue pas un conseil d'investissement ou d'achat technologique; les données techniques reposent sur la déclaration officielle d'Anthropic et les rapports de test de The Verge.

Cet article est un résumé éditorial assisté par IA basé sur The Verge. L'image est une photo d'archive de panumas nikhomkhai sur Pexels.