HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Enflammer l'écriture créative dans les petits modèles linguistiques : LLM comme juge versus récompenses raffinées par multi-agents

Xiaolong Wei Bo Lu Xingyu Zhang Zhejun Zhao Dongdong Shen Long Xia Dawei Yin

Enflammer l'écriture créative dans les petits modèles linguistiques : LLM comme juge versus récompenses raffinées par multi-agents

Résumé

Les grands modèles linguistiques (LLM) ont démontré des capacités remarquables en matière d’écriture créative, mais leurs exigences computationnelles importantes entravent leur utilisation généralisée. L’amélioration des petits modèles linguistiques (SLM) constitue une alternative prometteuse, mais les méthodes actuelles telles que le fine-tuning supervisé (SFT) peinent à générer de la nouveauté, tandis que l’apprentissage par renforcement à partir de feedback humain (RLHF) s’avère coûteux. Ce papier explore deux stratégies distinctes de récompense pilotées par l’intelligence artificielle au sein d’un cadre d’apprentissage par renforcement à partir de feedback d’IA (RLAIF), afin d’activer l’écriture créative d’un SLM de 7 milliards de paramètres, spécifiquement pour la génération de salutations chinoises. La première stratégie repose sur un modèle de jugement (RM) entraîné sur des données de préférences de haute qualité, collectées grâce à un cadre novateur de sélection par rejet multi-agents conçu pour les tâches créatives. La deuxième stratégie, plus originale, utilise un modèle linguistique guidé par des principes (LLM-as-a-Judge), dont la fonction de récompense est optimisée par un schéma d’entraînement adversarial intégrant un mécanisme de réflexion, afin de fournir directement des signaux de récompense. Des expériences approfondies révèlent que, bien que les deux approches améliorent significativement la production créative par rapport aux méthodes de référence, le modèle LLM-as-a-Judge guidé par des principes obtient une qualité de génération nettement supérieure. En outre, il présente des avantages notables en termes d’efficacité d’entraînement et d’une moindre dépendance aux données annotées par des humains, offrant ainsi une voie plus scalable et efficace vers des SLM créatifs. Nos méthodes d’évaluation automatisées montrent également une forte corrélation avec les jugements humains. Notre code et nos données sont disponibles publiquement à l’adresse suivante : [lien URL].

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Enflammer l'écriture créative dans les petits modèles linguistiques : LLM comme juge versus récompenses raffinées par multi-agents | Articles de recherche | HyperAI