BT-Adapter: المحادثة الفيديوية ممكنة دون ضبط تعليمات الفيديو

التطورات الأخيرة في نماذج اللغات الكبيرة (LLM) قد دفعت إلى تقدم ملحوظ في وكلاء المحادثة الصورة-اللغة، بينما لا يزال البحث جارياً حول كيفية بناء نظام حواري قائم على الفيديو بكفاءة. بالنظر إلى الحجم الواسع لنماذج اللغات الكبيرة والهيكل البصري، يتبقى القليل من ذاكرة GPU لتسهيل النمذجة الزمنية الفعالة، وهي أمر ضروري لفهم وتقديم ردود فعل على مقاطع الفيديو. لهذا الغرض، نقترح مكيف الزمن الفرعي (BT-Adapter)، وهو طريقة جديدة لتوسيع نماذج التدريب المسبقة للصورة-اللغة إلى مجال الفيديو. بصفة خاصة، يعمل BT-Adapter كفرع للنمذجة الزمنية يمكن استخدامه بشكل مباشر مع مُشفِّر الصور المدرب مسبقًا، حيث يتم ضبطه مع ترك الهيكل الرئيسي متوقفًا. بمجرد تدريبه مرة واحدة، يمكن دمج BT-Adapter بسلاسة في جميع نماذج المحادثة الصورية باستخدام هذا الإصدار من CLIP، مما يتيح إجراء محادثات بالفيديو دون الحاجة إلى تعليمات فيديو. بالإضافة إلى ذلك، طورنا استراتيجية فريدة للتغطية غير المتماثلة للمؤشرات داخل الفرع مع مهمات تدريب مصممة خصيصًا لـ BT-Adapter، مما يساعد على تحقيق التقارب الأسرع ونتائج أفضل. بفضل BT-Adapter، أصبح بإمكاننا تعزيز قدرات النماذج الحوارية المتعددة الأوضاع الموجودة على فهم الفيديو بشكل قوي دون تحمل تكاليف GPU زائدة. بدون أي تعقيدات إضافية، حقق BT-Adapter:1. أفضل النتائج الأولية بلا رؤية سابقة في مجموعة متنوعة من مهام الفيديو باستخدام ساعات أقل بكثير من GPU.2. أداءً أفضل من الدردشات الحالية بالفيديو دون أي ضبط بواسطة تعليمات الفيديو.3. أفضل النتائج الحالية في الدردشة بالفيديو باستخدام ضبط بواسطة تعليمات الفيديو، مما يتفوق بشكل كبير على أفضل النتائج السابقة (SOTAs).