منذ شهر واحد

تعزيز فهم الكلام في نماذج اللغة التي تأخذ بعين الاعتبار الكلام باستخدام GRPO

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

الملخص

في هذه الورقة، نقدّم منهجية قائمة على تحسين السياسة النسبية المجموعة (GRPO) لتدريب نماذج اللغة الكبيرة المُدركة للصوت (SALLMs) في مهام فهم الكلام المفتوحة الشكل، مثل الإجابة على الأسئلة الشفهية والترجمة التلقائية للصوت. وقد أثبتت نماذج SALLMs فعاليتها العالية في مهام فهم الكلام. وشهدت طريقة GRPO تزايدًا في الاهتمام مؤخرًا بفضل كفاءتها في تدريب النماذج الكبيرة للغة (LLMs)، كما استُكشفت تطبيقاتها السابقة على نماذج SALLMs، وخصوصًا في المهام ذات الخيارات المتعددة. وبناءً على ذلك، نركّز في هذا العمل على المهام المفتوحة الشكل التي تعكس بشكل أفضل القدرات التوليدية للنماذج. ويُعتمد منهجنا على استخدام GRPO مع مؤشر BLEU كمُكافأة لتحسين أداء نماذج SALLMs، ونُظهر تجريبيًا أن أداءها يفوق التدريب القياسي (SFT) في عدة مؤشرات رئيسية. وأخيرًا، نستعرض الإمكانات المُتاحة لدمج عينات خارج السياسة (off-policy samples) داخل إطار GRPO لهذه المهام، مع تسليط الضوء على مسارات مُستقبلية للتحسين والبحث المتعمق.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

تعزيز فهم الكلام في نماذج اللغة التي تأخذ بعين الاعتبار الكلام باستخدام GRPO

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters