HyperAIHyperAI
il y a 16 jours

OpenChat : Avancer les modèles linguistiques open-source grâce à des données de qualité mixte

Guan Wang, Sijie Cheng, Xianyuan Zhan, Xiangang Li, Sen Song, Yang Liu
OpenChat : Avancer les modèles linguistiques open-source grâce à des données de qualité mixte
Résumé

Actuellement, des modèles linguistiques à grande échelle open-source tels que LLaMA ont vu le jour. Les avancées récentes ont intégré le fine-tuning supervisé (SFT) et le fine-tuning par apprentissage par renforcement (RLFT) afin d’aligner ces modèles sur les objectifs humains. Toutefois, les méthodes SFT traitent toutes les données d’entraînement, quel que soit leur niveau de qualité, de manière équivalente, tandis que les méthodes RLFT nécessitent des données de préférence de haute qualité, basées sur des paires ou des classements. Dans cette étude, nous proposons un cadre novateur, nommé OpenChat, destiné à améliorer les modèles linguistiques open-source à l’aide de données de qualité mixte. Plus précisément, nous considérons des données d’entraînement SFT générales, composées d’un faible volume de données expertes mélangées à une proportion importante de données sous-optimales, sans étiquettes de préférence. Nous introduisons le C-RLFT (Conditioned Reinforcement Learning Fine-Tuning), qui traite différentes sources de données comme des étiquettes de récompense grossières et apprend une politique conditionnée par classe afin d’exploiter l’information complémentaire sur la qualité des données. De manière intéressante, la politique optimale dans le cadre C-RLFT peut être facilement obtenue par une seule étape d’apprentissage supervisé sans recours à l’apprentissage par renforcement, ce qui rend la méthode légère et évite les coûteuses étiquetages humains de préférences. À travers des expérimentations étendues sur trois benchmarks standards, notre modèle OpenChat-13b, finement ajusté via C-RLFT, atteint la meilleure performance moyenne parmi tous les modèles linguistiques open-source de taille 13 milliards. En outre, nous utilisons AGIEval pour valider la capacité de généralisation du modèle, dans lequel seul OpenChat-13b dépasse le modèle de base. Enfin, nous menons une série d’analyses afin d’expliquer l’efficacité et la robustesse du cadre OpenChat. Nos codes, données et modèles sont disponibles publiquement à l’adresse suivante : https://github.com/imoneoi/openchat et https://huggingface.co/openchat.

OpenChat : Avancer les modèles linguistiques open-source grâce à des données de qualité mixte | Articles de recherche récents | HyperAI