HyperAIHyperAI
منذ 7 أيام

الإجابة على الأسئلة المتعلقة بالفيديوهات بدون تدريب مسبق باستخدام نماذج لغوية ثنائية الاتجاه مجمدة

Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid
الإجابة على الأسئلة المتعلقة بالفيديوهات بدون تدريب مسبق باستخدام نماذج لغوية ثنائية الاتجاه مجمدة
الملخص

إن إجابة الأسئلة على الفيديو (VideoQA) هي مهمة معقدة تتطلب بيانات متعددة الوسائط متنوعة لتدريب النماذج. ومع ذلك، فإن الترميز اليدوي للأسئلة والإجابات المرتبطة بالفيديوهات هو عملية مملة وتعيق التوسع. لمعالجة هذه المشكلة، اعتمدت الطرق الحديثة على سياقات "صفرية" (zero-shot) دون الحاجة إلى ترميز يدوي للإجابات البصرية. وبشكل خاص، اقترح نهج واعد تكييف نماذج اللغة التوليدية المتسلسلة (autoregressive) المُدرَّبة مسبقًا على بيانات نصية ضخمة من الإنترنت (Web-scale) لتصبح قادرة على التعامل مع المدخلات متعددة الوسائط. في المقابل، نعتمد في هذا العمل على نماذج لغة ثنائية الاتجاه (BiLM) مجمدة (frozen)، ونُظهر أن هذا النهج يُقدِّم بديلًا أقوى وأرخص للإجابة على الأسئلة في الفيديو في السياقات الصفرية. وتحديدًا، (أ) ندمج المدخلات البصرية مع نموذج BiLM المجمد باستخدام وحدات قابلة للتدريب بسهولة، (ب) نُدرّب هذه الوحدات باستخدام بيانات متعددة الوسائط تم جمعها عبر الاستخراج من الإنترنت (Web-scraped)، و(ج) نُنفِّذ الاستدلال في مهام VideoQA الصفرية من خلال نمذجة اللغة المُعَمَّى (masked language modeling)، حيث يكون النص المُعَمَّى هو الإجابة على سؤال معين. ويُظهر النهج المقترح، المُسمى FrozenBiLM، أداءً أفضل بفارق كبير عن أفضل النماذج الحالية في مهام VideoQA الصفرية على مجموعة متنوعة من المجموعات البيانات، بما في ذلك LSMDC-FiB، iVQA، MSRVTT-QA، MSVD-QA، ActivityNet-QA، TGIF-FrameQA، How2QA، وTVQA. كما يُظهر أداءً تنافسيًا في السياقات القليلة التدريب (few-shot) والتدريب الكامل (fully-supervised). يُتاح الكود والنماذج الخاصة بنا للجمهور عبر الرابط التالي: https://github.com/antoyang/FrozenBiLM.

الإجابة على الأسئلة المتعلقة بالفيديوهات بدون تدريب مسبق باستخدام نماذج لغوية ثنائية الاتجاه مجمدة | أحدث الأوراق البحثية | HyperAI