Command Palette
Search for a command to run...
تعزيز فهم الكلام في نماذج اللغة التي تأخذ بعين الاعتبار الكلام باستخدام GRPO
Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

الملخص
في هذه الورقة، نقدّم منهجية قائمة على تحسين السياسة النسبية المجموعة (GRPO) لتدريب نماذج اللغة الكبيرة المُدركة للصوت (SALLMs) في مهام فهم الكلام المفتوحة الشكل، مثل الإجابة على الأسئلة الشفهية والترجمة التلقائية للصوت. وقد أثبتت نماذج SALLMs فعاليتها العالية في مهام فهم الكلام. وشهدت طريقة GRPO تزايدًا في الاهتمام مؤخرًا بفضل كفاءتها في تدريب النماذج الكبيرة للغة (LLMs)، كما استُكشفت تطبيقاتها السابقة على نماذج SALLMs، وخصوصًا في المهام ذات الخيارات المتعددة. وبناءً على ذلك، نركّز في هذا العمل على المهام المفتوحة الشكل التي تعكس بشكل أفضل القدرات التوليدية للنماذج. ويُعتمد منهجنا على استخدام GRPO مع مؤشر BLEU كمُكافأة لتحسين أداء نماذج SALLMs، ونُظهر تجريبيًا أن أداءها يفوق التدريب القياسي (SFT) في عدة مؤشرات رئيسية. وأخيرًا، نستعرض الإمكانات المُتاحة لدمج عينات خارج السياسة (off-policy samples) داخل إطار GRPO لهذه المهام، مع تسليط الضوء على مسارات مُستقبلية للتحسين والبحث المتعمق.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.