HyperAIHyperAI

Command Palette

Search for a command to run...

OThink-R1 : Un modèle d’IA qui choisit spontanément entre réflexion rapide et profonde

Des chercheurs de l’Université de Zhejiang, menés par le master Zhang Shengjia, ont développé OThink-R1, une nouvelle approche permettant aux grands modèles d’intelligence artificielle de décider eux-mêmes s’ils doivent engager une réflexion approfondie ou non. Cette innovation vise à corriger un problème récurrent des modèles de raisonnement profond : leur tendance à surcharger les tâches simples avec des processus de réflexion inutilement longs. Actuellement, les modèles de raisonnement profond, comme DeepSeek-R1 ou OpenAI o1, améliorent leurs performances en augmentant les ressources de calcul lors de l’exécution (test-time scaling), en imitant la manière dont les humains réfléchissent lentement et méthodiquement. Cependant, ces modèles traitent aussi des questions élémentaires — telles que « 1 + 1 = ? » — avec des chaînes de raisonnement extrêmement longues, alors qu’un humain y répondrait instinctivement. Cette sur-réflexion entraîne un gaspillage de ressources computationnelles et un délai inutile pour l’utilisateur. Inspirés du modèle cognitif humain, qui distingue entre un « penser rapide » (intuitif) et un « penser lent » (analytique), les chercheurs se sont demandé comment permettre aux modèles d’adopter une stratégie hybride. Leur objectif : que le modèle identifie automatiquement s’il doit passer par une réflexion approfondie ou répondre directement grâce à ses connaissances internes. Pour y parvenir, l’équipe a d’abord analysé les réponses des modèles de raisonnement profond et des modèles non raisonnants sur des tâches simples — comme des questions de logique élémentaire ou des calculs de niveau primaire. En comparant les chaînes de raisonnement, ils ont identifié des caractéristiques distinctes entre des raisonnements « nécessaires » et « redondants ». Ils ont ensuite éliminé les parties inutiles des chaînes de raisonnement profond, créant ainsi un nouveau jeu de données hybride, mêlant réflexion rapide et profonde. C’est sur cette base que l’équipe a entraîné un modèle par micro-ajustement supervisé. Ce processus a permis au modèle d’apprendre à sauter la phase de réflexion profonde pour les tâches simples, tout en maintenant une analyse approfondie pour les problèmes complexes. Ce système, baptisé OThink-R1, améliore ainsi l’efficacité computationnelle sans sacrifier la précision. Le développement n’a pas été sans obstacles. Au départ, les chercheurs ont tenté des approches par apprentissage par renforcement (GRPO) ou par DPO, mais ces méthodes se sont révélées instables, notamment en raison d’un mauvais suivi des instructions par les modèles et d’une grande variabilité dans les formats de sortie. Après plusieurs essais infructueux, la solution de micro-ajustement supervisé s’est avérée la plus robuste, malgré des limites de généralisation. Une étape future clé consiste à rendre ce système entièrement autonome, en remplaçant l’évaluation actuelle par un modèle LLM-Judge par un mécanisme intégré. En effet, OThink-R1 dépend encore d’un modèle externe pour juger si une réflexion est redondante. L’objectif ultime est de concevoir un système entièrement end-to-end, capable de décider en temps réel du niveau de profondeur de réflexion nécessaire. Ce travail, mené dans le cadre d’un partenariat entre OPPO et l’Université de Zhejiang, ouvre la voie à une nouvelle génération de modèles plus intelligents, plus rapides et plus économiques en ressources. Il illustre comment s’inspirer des mécanismes cognitifs humains peut mener à des avancées significatives dans l’intelligence artificielle.

Liens associés

OThink-R1 : Un modèle d’IA qui choisit spontanément entre réflexion rapide et profonde | Articles tendance | HyperAI