Rapport Hebdomadaire Sur L'ia : Dernières Recherches D'alibaba, De L'université De Xiamen, De L'université Du Zhejiang Et D'autres, Couvrant Les Algorithmes D'optimisation De L'apprentissage Par Renforcement, Les Agents D'interface Utilisateur Graphique, La Compression De Contexte Multimodal, Etc.

À mesure que les modèles linguistiques à grande échelle continuent de se développer, l'apprentissage par renforcement efficace et stable devient un défi majeur. Pour y remédier, l'équipe Qwen du groupe Alibaba a proposé un nouvel algorithme d'apprentissage par renforcement : l'optimisation des politiques de séquence de groupe (GSPO).
Contrairement aux méthodes traditionnelles qui s'appuient sur des ratios d'importance au niveau des jetons, GSPO définit des ratios d'importance en fonction des probabilités de séquence et effectue la troncature, les récompenses et l'optimisation au niveau de la séquence, améliorant ainsi considérablement la stabilité et l'efficacité de l'apprentissage. GSPO fonctionne exceptionnellement bien au sein de l'architecture Mixture-of-Experts, simplifiant la conception de l'infrastructure d'apprentissage par renforcement et améliorant considérablement les performances du dernier modèle Qwen3.
Lien vers le document:https://go.hyper.ai/FOrdj
Derniers articles sur l'IA:https://go.hyper.ai/hzChC
Afin de permettre à davantage d'utilisateurs de connaître les derniers développements dans le domaine de l'intelligence artificielle dans le milieu universitaire, le site Web officiel d'HyperAI (hyper.ai) a désormais lancé une section « Derniers articles », qui met à jour quotidiennement les articles de recherche de pointe sur l'IA.Voici 5 articles populaires sur l'IA que nous recommandons, jetons un coup d’œil rapide aux réalisations de pointe en matière d’IA de cette semaine⬇️
Recommandation de papier de cette semaine
1 Optimisation de la politique de séquence de groupe
Cet article présente Group Sequence Policy Optimization (GSPO), un algorithme d'apprentissage par renforcement stable, efficace et performant pour l'entraînement de grands modèles de langage. Contrairement aux algorithmes précédents qui utilisaient des ratios d'importance des jetons, GSPO définit ces ratios en fonction de la vraisemblance des séquences et effectue un élagage, des récompenses et une optimisation au niveau de la séquence.
Lien vers l'article :https://go.hyper.ai/FOrdj

2 UI-AGILE : amélioration des agents d'interface utilisateur graphique grâce à un apprentissage par renforcement efficace et une optimisation précise du temps d'inférence
Les méthodes existantes d'entraînement et d'inférence des agents d'interface graphique rencontrent encore des difficultés, telles que la conception de l'inférence, l'inefficacité des mécanismes de récompense et les interférences dues au bruit visuel. Cet article propose une nouvelle méthode, l'alignement par décomposition sélective, qui améliore significativement la précision de l'alignement sur les interfaces haute résolution en divisant l'image en parties plus petites et plus faciles à gérer. Les résultats expérimentaux démontrent qu'UI-AGILE atteint des performances de pointe sur deux tâches de référence : ScreenSpot-Pro et ScreenSpot-v2.
Lien vers l'article :https://go.hyper.ai/SRpdE

3 Quand les jetons parlent trop : Une étude de la compression de jetons multimodaux à contexte long sur les images, les vidéos et les fichiers audio
Cet article présente la première revue systématique et synthèse du domaine de recherche en plein essor qu'est la compression de jetons multimodale à contexte long. Compte tenu des caractéristiques uniques et de la redondance des différentes modalités, les chercheurs ont classé les méthodes existantes selon le type de données qu'elles traitent principalement, permettant ainsi un accès rapide aux méthodes applicables à des domaines de recherche spécifiques : compression centrée sur l'image, la vidéo et l'audio.
Lien vers l'article :https://go.hyper.ai/nOYw4

4 SciToolAgent : un agent scientifique piloté par un graphe de connaissances pour l'intégration multi-outils
Cet article présente SciToolAgent, un agent basé sur le LLM qui automatise le fonctionnement de centaines d'outils de recherche scientifique en biologie, chimie et science des matériaux. SciToolAgent est essentiellement un graphe de connaissances d'outils scientifiques qui exploite un mécanisme de génération augmentée de récupération (RAG) basé sur des graphes pour permettre une sélection et une exécution intelligentes des outils. Le système intègre également un module complet de contrôle de sécurité pour garantir une utilisation responsable et éthique des outils.
Lien vers l'article :https://go.hyper.ai/IOiRk

5 SmallThinker : une famille de produits efficaces Modèles de langage volumineux en mode natif Formé pour un déploiement local
Cet article présente SmallThinker, un ensemble de LLM conçus nativement pour les appareils locaux (plutôt que compressés à partir de modèles cloud). Ils sont spécifiquement conçus pour répondre aux limitations spécifiques des appareils locaux : faible puissance de calcul, mémoire limitée et stockage lent. L'architecture de SmallThinker a été repensée pour fonctionner efficacement dans des environnements contraints. Fondamentalement, il repose sur une architecture innovante « orientée déploiement » qui traduit les contraintes système en principes de conception.
Lien vers l'article :https://go.hyper.ai/tSwpG

Voici l'intégralité du contenu de la recommandation d'article de cette semaine. Pour découvrir d'autres articles de recherche de pointe en IA, veuillez consulter la section « Derniers articles » du site officiel d'hyper.ai.
Nous invitons également les équipes de recherche à nous soumettre des résultats et des articles de haute qualité. Les personnes intéressées peuvent ajouter leur compte WeChat NeuroStar (identifiant WeChat : Hyperai01).
À la semaine prochaine !