TruthRL : Inciter les grands modèles linguistiques à être véridiques par apprentissage par renforcement

Bien que les grands modèles linguistiques (LLM) aient démontré une performance remarquable dans la réponse à des questions factuelles, ils restent sujets à des hallucinations et à des réponses non véridiques, en particulier lorsque les tâches exigent des informations hors du cadre de leurs connaissances paramétriques. En effet, la vérité n’est pas seulement une question de précision : les modèles doivent également reconnaître l’incertitude et s’abstenir de répondre lorsqu’ils ne sont pas certains, afin d’éviter les hallucinations. Ce phénomène pose un défi fondamental aux méthodes existantes : les approches visant à optimiser la précision amplifient souvent les hallucinations, tandis que celles qui encouragent l’abstention deviennent trop conservatrices, au détriment des réponses correctes. Les deux extrêmes compromettent finalement la vérité. Dans ce travail, nous proposons TruthRL, un cadre général d’apprentissage par renforcement (RL) qui optimise directement la vérité des LLM. Plus précisément, nous mettons en œuvre TruthRL à l’aide de GRPO (Generalized Reward Policy Optimization) avec une récompense ternaire simple mais efficace, qui distingue trois cas : réponses correctes, hallucinations et abstentions. Ce cadre incite les modèles à réduire les hallucinations non seulement en fournissant des réponses correctes, mais aussi en permettant l’abstention en cas d’incertitude, améliorant ainsi la vérité. Des expérimentations étendues sur quatre benchmarks exigeant une grande connaissance montrent que, par rapport au RL classique, TruthRL réduit significativement les hallucinations de 28,9 % et améliore la vérité de 21,1 %, avec des gains constants sur divers modèles de base (par exemple, Qwen, Llama), dans les deux configurations avec et sans récupération d’information. Une étude d’ablation approfondie démontre que les méthodes traditionnelles axées sur la précision, telles que le fine-tuning supervisé ou le RL avec une récompense binaire, peinent à équilibrer la correction factuelle et la gestion de l’incertitude. À l’inverse, notre approche proposée, TruthRL, fondée sur une optimisation de la vérité, atteint de fortes performances à la fois en précision et en vérité, soulignant ainsi l’importance cruciale du choix de l’objectif d’apprentissage dans le développement de LLM véridiques.