HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours
Reasoning
Benchmarks
LLM

Lorsque le raisonnement rencontre ses lois

Junyu Zhang Yifan Sun Tianang Leng Jingyan Shen Liu Ziyin Paul Pu Liang Huan Zhang

Abstract

Malgré les performances supérieures des grands modèles de raisonnement (LRMs), leurs comportements de raisonnement sont souvent contre-intuitifs, ce qui conduit à des capacités de raisonnement sous-optimales. Afin de formaliser théoriquement les comportements de raisonnement souhaités, ce papier présente les Lois du Raisonnement (LoRe), un cadre unifié qui caractérise les schémas intrinsèques de raisonnement des LRMs. Nous proposons tout d’abord la loi du calcul, sous l’hypothèse que le calcul nécessaire au raisonnement devrait évoluer de manière linéaire en fonction de la complexité de la question. Au-delà du calcul, nous étendons LoRe par une loi complémentaire d’exactitude. Étant donné que la complexité des questions est difficile à quantifier en pratique, nous testons ces hypothèses à travers deux propriétés des lois : la monotonie et la compositionnalité. Nous introduisons donc LoRe-Bench, un benchmark qui mesure de manière systématique ces deux propriétés accessibles pour les grands modèles de raisonnement. Les évaluations montrent que la plupart des modèles de raisonnement présentent une monotonie raisonnable, mais manquent de compositionnalité. En réponse, nous développons une méthode d’ajustement fin (finetuning) efficace qui impose la compositionnalité selon la loi du calcul. Des études empiriques étendues démontrent qu’une meilleure conformité aux lois du calcul se traduit par une amélioration constante des performances de raisonnement sur plusieurs benchmarks, et mettent en évidence des effets synergiques entre les propriétés et les lois. Page du projet : https://lore-project.github.io/


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp