HyperAI

Lundi, Anthropic a dévoilé Opus 4.5, la dernière version de sa série 4.5 de modèles phares, suivant la sortie de Sonnet 4.5 en septembre et de Haiku 4.5 en octobre. Ce nouveau modèle affiche des performances de pointe sur plusieurs benchmarks, notamment en programmation (SWE-Bench et Terminal-bench), utilisation d’outils (tau2-bench et MCP Atlas) et résolution de problèmes généraux (ARC-AGI 2, GPQA Diamond). Notamment, Opus 4.5 est le premier modèle à dépasser les 80 % sur SWE-Bench verified, une évaluation réputée en matière de compétences de codage. Anthropic a également mis l’accent sur les capacités d’Opus 4.5 en matière d’utilisation d’ordinateur et de manipulation de tableurs, en lançant parallèlement deux produits grand public : Claude pour Chrome et Claude pour Excel, auparavant en phase de test. L’extension Chrome sera désormais accessible à tous les utilisateurs du forfait Max, tandis que la version Excel sera disponible pour les abonnés Max, Team et Enterprise. Le modèle bénéficie également d’améliorations significatives en matière de mémoire pour les tâches à longue portée, nécessitant des ajustements profonds dans la manière dont le modèle gère ses souvenirs. Dianne Na Penn, directrice de la gestion produit de recherche chez Anthropic, a expliqué à TechCrunch : « Nous avons amélioré la qualité générale de la gestion du contexte lors de l’entraînement, mais une fenêtre de contexte plus longue ne suffit pas à elle seule. Ce qui compte, c’est de savoir quels détails retenir. » Ces avancées ont permis d’activer une fonctionnalité très demandée : le « chat sans fin » pour les utilisateurs payants. Lorsque la limite de contexte est atteinte, le modèle compresse automatiquement sa mémoire sans alerter l’utilisateur, permettant ainsi une conversation continue. De nombreuses évolutions visent spécifiquement les scénarios d’usage agent, notamment lorsque Opus 4.5 agit comme un agent principal coordonnant une équipe d’agents secondaires basés sur Haiku. Cette architecture exige une maîtrise fine de la mémoire de travail, là où les améliorations de mémoire d’Opus 4.5 s’avèrent cruciales. « C’est là que des fondamentaux comme la mémoire deviennent essentiels, souligne Dianne Na Penn. Claude doit pouvoir explorer des bases de code ou de grands documents, et savoir quand revenir en arrière pour vérifier un élément. » Opus 4.5 devra faire face à une concurrence redoutable, notamment face à GPT-5.1 d’OpenAI, lancé le 12 novembre, et à Gemini 3 de Google, sorti le 18 novembre. Ces lancements marquent une nouvelle phase de l’innovation dans les modèles d’intelligence artificielle, où la performance, la mémoire et l’intégration dans les outils du quotidien sont autant de leviers clés.

Liens associés

Liens associés

Liens associés

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

Command Palette

Anthropic lance Opus 4.5 avec des intégrations Chrome et Excel, une mémoire améliorée et une nouvelle fonction "chat sans fin"

Liens associés

Command Palette

Anthropic lance Opus 4.5 avec des intégrations Chrome et Excel, une mémoire améliorée et une nouvelle fonction "chat sans fin"

Liens associés

Command Palette

Anthropic lance Opus 4.5 avec des intégrations Chrome et Excel, une mémoire améliorée et une nouvelle fonction "chat sans fin"

Liens associés

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.