Command Palette
Search for a command to run...
Avancement de la compréhension du discours dans les modèles linguistiques conscients du discours grâce au GRPO
Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

Résumé
Dans cet article, nous proposons une méthode fondée sur l'optimisation politique relative par groupes (GRPO) pour former des modèles de langage à grande échelle sensibles à la parole (SALLM) sur des tâches d'understanding de la parole à format ouvert, telles que la réponse à des questions orales et la traduction automatique de la parole. Les SALLM se sont révélés particulièrement efficaces pour les tâches d'understanding de la parole. La méthode GRPO a récemment connu un fort intérêt en raison de son efficacité dans l'entraînement des grands modèles de langage (LLM), et des travaux antérieurs ont exploré son application aux SALLM, principalement dans des tâches à choix multiples. S'appuyant sur ces avancées, nous nous concentrons sur des tâches à format ouvert, qui reflètent mieux les capacités génératives des modèles. Notre approche exploite la GRPO en utilisant le score BLEU comme signal de récompense afin d'optimiser les SALLM, et nous démontrons empiriquement qu'elle surpasse l'entraînement standard par fine-tuning (SFT) sur plusieurs métriques clés. Enfin, nous explorons le potentiel d'intégrer des échantillons hors politique (off-policy) dans le cadre de la GRPO pour ces tâches, mettant en lumière des pistes d'amélioration et de recherches futures.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.