Titre : "Semaine du 12 au 18 Mai : Les Dernières Avancées en IA et ML, des Flaws des Chatbots aux Nouveaux Outils Scientifiques" Ce titre met en avant les informations essentielles de l'article, notamment les failles dans les classements des chatbots et les nouveaux outils IA pour la science, tout en restant clair et concis. Il attire l'attention des technophiles sur les dernières avancées tout en étant factuellement exact et professionnel.
Résumé des Actualités AI & ML (12-18 Mai) Recherches The Leaderboard Illusion Une étude révèle de sérieuses failles dans le système de classement des chatbots, notamment au sein de l'« Arena » de Chatbot. Les pratiques comme le rapport sélectif de scores, les déséquilibres extrêmes de données, et les suppressions silencieuses de modèles déforment les comparaisons entre modèles de langage (LLMs). L'analyse de 2 millions de batailles montre que les tests privés et l'accès privilégié aux données pour les modèles propriétaires gonflent les scores, rendant le classement peu fiable pour évaluer la qualité réelle des modèles. LLMs Perform Less Well in Multi-Turn Conversations Les modèles de langage performent nettement moins bien lors de conversations en plusieurs tours. Leur performance moyenne chute de 39% en raison d'une fiabilité moindre et de suppositions erronées prématurées. Sakana AI's Continuous Thought Machine L'entreprise japonaise Sakana AI présente une nouvelle modèle où chaque neurone conserve la mémoire des actions passées et coordonne ses opérations selon des motifs temporels. Bien que ce modèle soit moins performant que les modèles traditionnels, il offre une transparence accrue dans son processus de raisonnement. AlphaEvolve Google DeepMind a lancé AlphaEvolve, un agent de codage alimenté par les modèles Gemini. Il génère et affine des solutions algorithmiques complètes en les évaluant automatiquement et en buildsant sur les tentatives réussies. Ce processus a permis des améliorations significatives au sein des infrastructures Google, notamment dans les performances des centres de données et la conception de circuits intégrés. Étude sur l'Impact de ChatGPT dans l'Éducation Une méta-analyse de 51 études indique que ChatGPT améliore considérablement les performances académiques des étudiants et modère leur perception de l'apprentissage et de la pensée d'ordre supérieur. Les effets ont été les plus marqués dans les environnements d'apprentissage basés sur des problèmes avec une utilisation régulière sur 4 à 8 semaines. BLIP3-o BLIP3-o est une nouvelle architecture de diffusion transformer formée de manière séquentielle. Elle atteint des performances inégalées dans divers bancs d'essai multimodaux, et le projet comprend le code du modèle, les poids préformés et un ensemble de données d'ajustement d'instructions de 60 000 éléments. Actualités Meta Appelle Robert Fergus au Leadership Meta a nommé Robert Fergus, ancien directeur de recherche chez DeepMind, à la tête de son laboratoire de recherche en IA FAIR. Cela suit une série de changements de direction et de départs de personnel. Microsoft et OpenAI Revisitent leur Partenariat Microsoft et OpenAI revisiteraient leur partenariat multimilliardaire, envisageant que Microsoft cède une partie de sa participation en échange d'un accès prolongé à la technologie d'OpenAI, qui pourrait s'étendre au-delà de leur accord actuel de 2030. Deep Research et GitHub ChatGPT, via son agent Deep Research, peut maintenant analyser des dépôts GitHub, examiner le code source et les pull requests pour produire des rapports détaillés et cités. Les utilisateurs peuvent interroger directement les dépôts via l'intégration Deep Research → GitHub. Curl Project et Vulnérabilités Faussement Rapportées Daniel Stenberg, fondateur du projet curl, dénonce la vague de fausses vulnérabilités signalées par des outils d'IA via des plateformes comme HackerOne. S'il admet que l'IA peut améliorer la qualité des rapports si bien utilisée, Stenberg réclame une meilleure infrastructure et des outils plus efficaces pour faire face à ce qu'il considère comme une attaque de déni de service. Gemini 2.5 Video Understanding Gemini 2.5 Pro a atteint des résultats de pointe sur des benchmarks vidéo tels que YouCook2 et QVHighlights, surpassant même GPT-4.1 et égalant les modèles spécifiques finement ajustés dans les mêmes conditions d'évaluation. Scandale MrDeepFakes Un pharmacien torontois, David Do, a été révélé comme étant la figure clé derrière MrDeepFakes.com, le plus grand site d'explicit deepfakes au monde. Le site a été fermé définitivement après cette exposition. Malgré que les deepfakes soient encore légaux au Canada, le Premier ministre Mark Carney s'est engagé à les criminaliser. Acquisition de Windsurf par OpenAI OpenAI a négocié l'acquisition de l'outil de codage assisté par IA, Windsurf, pour environ 3 milliards de dollars. Les nouveaux modèles de Windsurf comprennent le SWE-1, comparable à Claude Sonnet 3.5, ainsi que des versions allégées et mini optimisées. Projets Open Source et Ressources Llama-Nemotron NVIDIA lance la série Llama-Nemotron, incluant des modèles de 8 à 253 milliards de paramètres. Ces modèles introduisent un toggle de raisonnement dynamique et une pipeline de formation multicouche, offrant une meilleure efficacité et des performances rivalisant ou surpassant DeepSeek-R1. Optimizing GEMM Les clusters de thread blocs et les instructions 2-SM UMMA sur les GPUs Blackwell permettent une intensité arithmétique plus élevée et des transferts de mémoire plus efficaces dans les charges de travail GEMM en utilisant CUTLASS. Meta AssetGen 2.0 Meta améliore sa capacité de création de maillages et de textures 3D détaillés par textes et images, avec une meilleure fidélité et une résolution de textures sensitive aux vues. UCGM for Generative Models UCGM propose un cadre unifié pour la formation et l'échantillonnage de modèles génératifs, s'adaptant aux modèles à plusieurs étapes et peu d'étapes. Hugging Face Fast Transcription Endpoint Hugging Face dévoile un nouveau point de terminaison Whisper offrant une transcription jusqu'à 8 fois plus rapide, adaptable facilement pour des tâches liées à la parole avec un coût réduit. Void: Open-Source AI Code Editor Void, une bifurcation de VS Code, permet la connexion directe à des modèles IA sans passer par des serveurs tiers. Il comprend des fonctionnalités comme l'autocomplétion, le mode Agent et le mode Gather. Perspectives de l'Industrie Safety and Legal Status of Delivery Robots in Australia L'Australie a des réserves quant à la sûreté et au statut juridique des drones de livraison, mais des prototypes de startups locales commencent à montrer leurs avantages. AI and Job Replacement in Silicon Valley Dans la Silicon Valley, l'IA est vue non seulement comme un moyen de remplacer certains emplois, mais tous. Les CEO des grandes entreprises technologiques semblent se préoccuper davantage de l'efficacité que du maintien des emplois humains. Carbon Footprint of ChatGPT La consommation énergétique des requêtes ChatGPT est beaucoup plus faible que précédemment estimée, avec environ 0.3 Wh par requête, soit dix fois moins que les estimations initiales. Malgré tout, le suivi de l'empreinte carbone totale de l'IA reste important. Jakub Pachocki on Advanced Models Jakub Pachocki, responsable du développement des modèles avancés chez OpenAI, est enthousiaste à l'idée de publier une version ouverte pour les chercheurs. Integration of AI in Journalism Une enquête auprès de journalistes de Reuters, The Washington Post, VentureBeat, et 404 Media montre que les salles de rédaction intègrent l'IA de manière sélective, lautilisant pour la transcription, l'analyse de données, et la traduction, mais l'évitant pour la création de contenu. Usage of ChatGPT in Prohibited Countries Des chercheurs ont utilisé un classificateur pour détecter l'utilisation de ChatGPT dans des pays où son accès est interdit. En août 2023, 22% des prépublications chinoises contenaient du contenu généré par IA, contre 11% dans les pays ayant un accès légal. Bien que cela n'affecte pas les citations ou l'acceptation dans des revues, l'usage de ChatGPT est lié à une augmentation des vues et des téléchargements. MCP and Security Risks Le Protocole de Contexte de Modèle (MCP), développé par Anthropic AI pour connecter les LLMs à des outils et des données, manque de mesures de sécurité intégrées. Des experts soulignent des risques comme les injects de prompts et le sabotage d'outils, soulignant la nécessité d'une vigilance accrue et de meilleures pratiques de sécurité. Future of Web Development with AI Agents L'IA est prête à révolutionner le web en interagissant de manière autonome et en partageant du contenu. Les développeurs devront adapter leurs API pour répondre à ces interactions et créer des expériences utilisateur personnalisées et évolutives. Key Developer Patterns in the AI Era Andreesen Horowitz a identifié neuf tendances majeures de développement pour l'ère de l'IA, remettant en question la manière de construire les logiciels et les outils utilisés. Profils et Évaluations de l'Industrie Sakana AI propose une approche innovante en inspirant son modèle du cerveau humain, offrant une transparence inédite dans le processus de raisonnement. Malgré une performance moindre, ce modèle soulève des questions intéressantes sur l'avenir de l'IA transparente. Le rachat de Windsurf par OpenAI pour 3 milliards de dollars marque un tournant dans la guerre des assistants de codage. Ces outils promettent d'accelerer et d'améliorer considérablement le processus de développement, mais soulèvent aussi des inquiétudes sur le contrôle et la supervision nécessaires pour maintenir la qualité et la sécurité du code généré. FutureHouse, une ONG soutenue par Eric Schmidt, lance une plateforme et une API dotées d'outils d'IA conçus pour accélérer la recherche scientifique. Ces initiatives visent à transformer la manière dont les scientifiques travaillent, ouvrant une nouvelle ère de collaboration humain-IA en recherche.
