il y a 16 jours

LongWriter-Zero : Maîtrise de la Génération de Textes Ultra-Longs par Apprentissage par Renforcement

Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li

Résumé

La génération ultra-longue par des grands modèles de langage (LLMs) est un scénario largement demandé, mais elle reste un défi majeur en raison de la limite maximale de leur longueur de génération et de la dégradation globale de la qualité à mesure que la longueur de la séquence augmente. Les approches précédentes, comme celle illustrée par LongWriter, reposent généralement sur une forme d'« enseignement », qui implique un affinage supervisé (SFT) sur des sorties longues synthétiques. Cependant, cette stratégie dépend fortement des données SFT synthétiques, qui sont difficiles et coûteuses à construire, souvent manquent de cohérence et de consistance, et tendent à être excessivement artificielles et structuralement monotones.Dans ce travail, nous proposons une approche basée sur l'incitation qui, partant entièrement de zéro et sans s'appuyer sur aucune donnée annotée ou synthétique, utilise l'apprentissage par renforcement (RL) pour favoriser l'émergence de capacités de génération textuelle ultra-longue et de haute qualité dans les LLMs. Nous effectuons une formation RL à partir d'un modèle de base, similaire à R1-Zero, le guidant pour engager des raisonnements facilitant la planification et l'affinement lors du processus d'écriture. Pour soutenir cela, nous utilisons des modèles de récompense spécialisés qui orientent le LLM vers une meilleure maîtrise de la longueur, une amélioration de la qualité d'écriture et une mise en forme structurée.Les évaluations expérimentales montrent que notre modèle LongWriter-Zero, formé à partir du Qwen2.5-32B, surpasse constamment les méthodes SFT traditionnelles dans les tâches d'écriture longue, obtenant des résultats d'état de l'art sur toutes les métriques du WritingBench et d'Arena-Write, voire surpassant des modèles de plus de 100 milliards de paramètres tels que DeepSeek R1 et Qwen3-235B. Nous mettons nos données et nos points de contrôle du modèle en open source sous https://huggingface.co/THU-KEG/LongWriter-Zero-32B.