HyperAIHyperAI

Command Palette

Search for a command to run...

Confiance est tout ce dont vous avez besoin : Ajustement fin de modèles de langage par apprentissage par renforcement à faible échantillonnage

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

Résumé

Les grands modèles de langage (LLMs) excellent dans la raisonnement, mais l'entraînement postérieur reste crucial pour aligner leur comportement avec les objectifs des tâches. Les méthodes actuelles d'apprentissage par renforcement (RL) dépendent souvent d'annotations humaines coûteuses ou de modèles de récompense externes. Nous proposons l'Apprentissage par Renforcement via la Confiance en Soi (RLSC), qui utilise la confiance propre du modèle comme signaux de récompense, éliminant ainsi le besoin de labels, de modèles de préférence ou d'ingénierie de récompense. Appliqué à Qwen2.5-Math-7B avec seulement 16 échantillons par question et 10 ou 20 étapes d'entraînement, RLSC améliore la précision de +13,4 % sur AIME2024, +21,2 % sur MATH500, +21,7 % sur Minerva Math, +20,8 % sur Olympiadbench et +9,7 % sur AMC23. RLSC fournit une méthode d'entraînement postérieur simple et évolutif pour les modèles d'inférence, ne nécessitant qu'un petit nombre d'échantillons et une supervision non étiquetée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp