HyperAI
منذ 15 أيام

LongWriter-Zero: إتقان توليد النصوص الطويلة جداً عبر التعلم التعزيزي

Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li
LongWriter-Zero: إتقان توليد النصوص الطويلة جداً عبر التعلم التعزيزي
الملخص

الإنتاج الفائق الطول بواسطة نماذج اللغات الكبيرة (LLMs) هو سيناريو مطلوب على نطاق واسع، ومع ذلك لا يزال يشكل تحديًا كبيرًا بسبب حدود الطول القصوى للإنتاج وتدهور الجودة العامة مع زيادة طول التسلسل. تتمثل الاستراتيجيات السابقة، مثل LongWriter، في الاعتماد على "التدريس" الذي يشمل التحسين الدقيق المشرف (SFT) على الإنتاج الطويل الصناعي. ومع ذلك، تعتمد هذه الاستراتيجية بشكل كبير على بيانات SFT الصناعية التي تكون صعبة ومكلفة في بنائها، غالبًا ما تفتقر إلى التجانس والاتساق، وتكون مصطنعة بشكل مفرط وبنيتها رتيبة. في هذا العمل، نقترح نهجًا قائمًا على الحوافز يبدأ تمامًا من الصفر ولا يعتمد على أي بيانات مصححة أو صناعية، ويستفيد من التعلم التعزيزي (RL) لتعزيز ظهور قدرات إنتاج النصوص الفائقة الطول والجودة العالية في نماذج اللغات الكبيرة. نقوم بتدريب RL بدءًا من نموذج أساسي مشابه لـ R1-Zero، وندفعه نحو المشاركة في استدلال يسهل التخطيط والتكرار أثناء عملية الكتابة. لدعم هذا الأمر، نستخدم نماذج مكافآت متخصصة توجه النموذج الكبير للغة نحو تحسين السيطرة على الطول وجودة الكتابة والتنسيق البنيوي. أظهرت التقييمات التجريبية أن نموذجنا LongWriter-Zero المدرب من Qwen2.5-32B يتفوق باستمرار على طرق SFT التقليدية في مهمات الكتابة الطويلة، حيث حقق أفضل النتائج في جميع المؤشرات على WritingBench و Arena-Write، وحتى تفوق على نماذج بحجم 100 مليار معالجة فما فوق مثل DeepSeek R1 و Qwen3-235B. سنوفر كود البيانات ونقاط التحقق من النموذج كمصدر مفتوح تحت الرابط https://huggingface.co/THU-KEG/LongWriter-Zero-32B