HyperAIHyperAI

Command Palette

Search for a command to run...

TruthRL : Inciter les grands modèles linguistiques à être véridiques par apprentissage par renforcement

Résumé

Bien que les grands modèles linguistiques (LLM) aient démontré une performance remarquable dans la réponse à des questions factuelles, ils restent sujets à des hallucinations et à des réponses non véridiques, en particulier lorsque les tâches exigent des informations hors du cadre de leurs connaissances paramétriques. En effet, la vérité n’est pas seulement une question de précision : les modèles doivent également reconnaître l’incertitude et s’abstenir de répondre lorsqu’ils ne sont pas certains, afin d’éviter les hallucinations. Ce phénomène pose un défi fondamental aux méthodes existantes : les approches visant à optimiser la précision amplifient souvent les hallucinations, tandis que celles qui encouragent l’abstention deviennent trop conservatrices, au détriment des réponses correctes. Les deux extrêmes compromettent finalement la vérité. Dans ce travail, nous proposons TruthRL, un cadre général d’apprentissage par renforcement (RL) qui optimise directement la vérité des LLM. Plus précisément, nous mettons en œuvre TruthRL à l’aide de GRPO (Generalized Reward Policy Optimization) avec une récompense ternaire simple mais efficace, qui distingue trois cas : réponses correctes, hallucinations et abstentions. Ce cadre incite les modèles à réduire les hallucinations non seulement en fournissant des réponses correctes, mais aussi en permettant l’abstention en cas d’incertitude, améliorant ainsi la vérité. Des expérimentations étendues sur quatre benchmarks exigeant une grande connaissance montrent que, par rapport au RL classique, TruthRL réduit significativement les hallucinations de 28,9 % et améliore la vérité de 21,1 %, avec des gains constants sur divers modèles de base (par exemple, Qwen, Llama), dans les deux configurations avec et sans récupération d’information. Une étude d’ablation approfondie démontre que les méthodes traditionnelles axées sur la précision, telles que le fine-tuning supervisé ou le RL avec une récompense binaire, peinent à équilibrer la correction factuelle et la gestion de l’incertitude. À l’inverse, notre approche proposée, TruthRL, fondée sur une optimisation de la vérité, atteint de fortes performances à la fois en précision et en vérité, soulignant ainsi l’importance cruciale du choix de l’objectif d’apprentissage dans le développement de LLM véridiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TruthRL : Inciter les grands modèles linguistiques à être véridiques par apprentissage par renforcement | Articles | HyperAI