استرجاع-للإجابة: الإجابة على أسئلة الفيديو بدون تدريب مسبق باستخدام نماذج اللغة الكبيرة المجمدة

تم إحراز تقدم كبير في مجال الإجابة على أسئلة الفيديو (VideoQA) بفضل توسيع نطاق النماذج اللغوية الكبيرة الحديثة (LLMs). الفكرة الأساسية هي تحويل المعلومات البصرية إلى فضاء الخصائص اللغوية للاستفادة الكاملة من قدرات نماذج LLMs. تتبع الطرق الحالية في VideoQA عادةً أحد النمطين التاليين: (1) تعلم التوافق بين الأوضاع المتعددة، و(2) استخدام نموذج الوصف الجاهز لوصف البيانات البصرية. ومع ذلك، يتطلب التصميم الأول تدريباً مكلفاً على كميات كبيرة من البيانات متعددة الأوضاع، بينما يقتصر الثاني بسبب التعميم المحدود للنطاق.لحل هذه المشكلات، تم اقتراح إطار عمل بسيط ومعتدل يُعرف باسم استرجاع للإجابة (R2A). عند تقديم فيديو كمدخل، يقوم R2A أولاً باسترجاع مجموعة من النصوص المشابهة معانيًا من مكتبة نصوص عامة باستخدام نموذج متعدد الأوضاع مسبق التدريب (مثل CLIP). وباستخدام السؤال والنصوص المسترجعة معًا، يمكن استخدام نموذج LLM (مثل DeBERTa) مباشرة لإعطاء إجابة مرغوبة. دون الحاجة إلى تعديل دقيق بين الأوضاع المتعددة، يسمح R2A بتوصيل جميع المكونات الرئيسية (مثل LLM، نموذج الاسترجاع، ومكتبة النصوص) بطريقة سهلة ومرنة.أظهرت التجارب الواسعة على عدة مقاييس لـ VideoQA أن R2A لدينا يمكنه تحقيق أداء أفضل من نموذج Flamingo-80B الذي يبلغ حجمه 61 مرة أكبر حتى بعد تدريبه على حوالي 2.1 مليار بيانات متعددة الأوضاع. هذا رغم أن R2A يحتوي على 1.3 مليار معلمة فقط ولا يتم تعديله بشكل دقيق.