HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours

Plus court mais pas pire : un raisonnement frugal via des exemples simples comme régularisateurs de longueur dans le cadre du Math RLVR

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

Plus court mais pas pire : un raisonnement frugal via des exemples simples comme régularisateurs de longueur dans le cadre du Math RLVR

Résumé

Les modèles linguistiques massifs (LLM) entraînés pour raisonner étape par étape deviennent souvent excessivement verbeux, ce qui augmente considérablement le coût d'inférence. Les pipelines classiques d'apprentissage par renforcement avec récompenses vérifiables (RLVR) filtrent les « problèmes faciles » afin d'améliorer l'efficacité d'entraînement, laissant le modèle principalement s'entraîner sur des problèmes plus difficiles, qui nécessitent des chaînes de raisonnement plus longues. Ce choix biaise la distribution de la longueur des sorties vers le haut, conduisant le modèle à confondre « réfléchir plus longtemps » avec « raisonner mieux ». Dans ce travail, nous montrons qu'en conservant et en légèrement surpoidsant les problèmes modérément faciles, on obtient un régulariseur implicite de longueur. En exposant le modèle à des tâches à chaîne de raisonnement courtes mais résolubles, on restreint sa distribution de sortie et on empêche l'expansion incontrôlée de la longueur. Le résultat est une brièveté émergente gratuite : le modèle apprend à résoudre des problèmes plus difficiles sans allonger la longueur des sorties, malgré l'absence de toute pénalité explicite sur la longueur. Des expériences RLVR menées avec cette approche sur Qwen3-4B-Thinking-2507 (avec une limite de 16 000 tokens) atteignent une précision pass@1 sur AIME25 équivalente à la base, tout en générant des solutions dont la longueur moyenne est presque deux fois plus courte. Le code est disponible à l’adresse suivante : https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, avec les jeux de données et les modèles disponibles sur https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Plus court mais pas pire : un raisonnement frugal via des exemples simples comme régularisateurs de longueur dans le cadre du Math RLVR | Articles de recherche | HyperAI