HyperAIHyperAI

Command Palette

Search for a command to run...

ضبط النماذج المتعددة الأوضاع الكبيرة للفيديوهات باستخدام التعلم التعزيزي من ملاحظات الذكاء الاصطناعي

Daechul Ahn Yura Choi Youngjae Yu Dongyeop Kang Jonghyun Choi

الملخص

التطورات الحديثة في نماذج اللغات الكبيرة قد أثرت على تطوير نماذج الفيديو المتعددة الأوضاع الكبيرة (VLMMs). كانت النهج السابقة لـ VLMMs تتضمن التحسين الإشرافي الدقيق (SFT) باستخدام مجموعات بيانات مُعَلَّمَة بالتعليم، دمج نموذج اللغة الكبير مع المُشفرات البصرية، وإضافة وحدات قابلة للتعلم إضافية. لا يزال التنسيق بين الأوضاع البصرية والنصية يمثل تحديًا رئيسيًا، وذلك بسبب نقص حجم وجودة البيانات المعتمدة على التعليم المتعدد الأوضاع مقارنة ببيانات النص فقط. نقدم استراتيجية تنسيق جديدة تعتمد على نظام ذكاء اصطناعي متعدد الأوضاع لإدارة نفسه، والتي تُعرف بتعلم التعزيز من ردود فعل الذكاء الاصطناعي (RLAIF)، حيث توفر ردود فعل تفضيل ذاتية لتحسين نفسه وتسهيل تنسيق الأوضاع البصرية والنصية. وبشكل خاص، نقترح نمذجة جائزة واعية بالسياق من خلال تقديم وصف فيديو مفصل كسياق أثناء إنشاء ردود الفعل التفضيلية لتعزيز فهم محتوى الفيديو. لقد أظهرت طريقة RLAIF المتعددة الأوضاع الخاصة بنا، التي تُسمى VLM-RLAIF، أداءً متفوقًا في مجموعة متنوعة من مقاييس الفيديو، مما يجعلها أفضل من الأساليب الحالية بما فيها نموذج SFT. نتعهد بتوفير شفرتنا المصدرية والنماذج ومجموعات البيانات بشكل مفتوح المصدر لتشجيع المزيد من البحث في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp