HyperAIHyperAI
منذ 2 أشهر

ضبط النماذج المتعددة الأوضاع الكبيرة للفيديوهات باستخدام التعلم التعزيزي من ملاحظات الذكاء الاصطناعي

Daechul Ahn; Yura Choi; Youngjae Yu; Dongyeop Kang; Jonghyun Choi
ضبط النماذج المتعددة الأوضاع الكبيرة للفيديوهات باستخدام التعلم التعزيزي من ملاحظات الذكاء الاصطناعي
الملخص

التطورات الحديثة في نماذج اللغات الكبيرة قد أثرت على تطوير نماذج الفيديو المتعددة الأوضاع الكبيرة (VLMMs). كانت النهج السابقة لـ VLMMs تتضمن التحسين الإشرافي الدقيق (SFT) باستخدام مجموعات بيانات مُعَلَّمَة بالتعليم، دمج نموذج اللغة الكبير مع المُشفرات البصرية، وإضافة وحدات قابلة للتعلم إضافية. لا يزال التنسيق بين الأوضاع البصرية والنصية يمثل تحديًا رئيسيًا، وذلك بسبب نقص حجم وجودة البيانات المعتمدة على التعليم المتعدد الأوضاع مقارنة ببيانات النص فقط. نقدم استراتيجية تنسيق جديدة تعتمد على نظام ذكاء اصطناعي متعدد الأوضاع لإدارة نفسه، والتي تُعرف بتعلم التعزيز من ردود فعل الذكاء الاصطناعي (RLAIF)، حيث توفر ردود فعل تفضيل ذاتية لتحسين نفسه وتسهيل تنسيق الأوضاع البصرية والنصية. وبشكل خاص، نقترح نمذجة جائزة واعية بالسياق من خلال تقديم وصف فيديو مفصل كسياق أثناء إنشاء ردود الفعل التفضيلية لتعزيز فهم محتوى الفيديو. لقد أظهرت طريقة RLAIF المتعددة الأوضاع الخاصة بنا، التي تُسمى VLM-RLAIF، أداءً متفوقًا في مجموعة متنوعة من مقاييس الفيديو، مما يجعلها أفضل من الأساليب الحالية بما فيها نموذج SFT. نتعهد بتوفير شفرتنا المصدرية والنماذج ومجموعات البيانات بشكل مفتوح المصدر لتشجيع المزيد من البحث في هذا المجال.

ضبط النماذج المتعددة الأوضاع الكبيرة للفيديوهات باستخدام التعلم التعزيزي من ملاحظات الذكاء الاصطناعي | أحدث الأوراق البحثية | HyperAI