HyperAIHyperAI
منذ 18 أيام

مُشَكِّل عَبْرِيٌّ خفيف الوزن متكرر للوسائط لاستجابة الأسئلة حول الفيديو

{Cheol Jeong, Steve Andreas Immanuel}
الملخص

تُختزل مهمة الإجابة على الأسئلة في الفيديو في جوهرها إلى كيفية دمج المعلومات بين النص والفيديو بشكل فعّال للتنبؤ بالإجابة. تستخدم معظم الدراسات السابقة مشغّلًا ترانسفورمر كمحول عابر للوحدات لدمج الكلا الوحدتين من خلال الاستفادة من آلية الانتباه الذاتي الكاملة. ومع ذلك، نظرًا لتكاليف الحوسبة العالية الناتجة عن آلية الانتباه الذاتي، وارتفاع أبعاد بيانات الفيديو، يضطر الباحثون إلى الاختيار بين: 1) تدريب المحول العابر للوحدات فقط على ميزات الفيديو والنص المُستخرجة مسبقًا في وضع غير مباشر (offline)، أو 2) تدريب المحول العابر للوحدات مع مُستخرجي الميزات الخاصين بالفيديو والنص، لكن باستخدام إطارات فيديو مُستخرجة بشكل متباعد (نادر التكرار). يعاني التدريب فقط على الميزات المستخرجة مسبقًا من انفصال بين الميزات المستخرجة وبيانات المهمة المستهدفة في المرحلة التالية، لأن مُستخرجي الميزات الخاصين بالفيديو والنص يتم تدريبهما بشكل مستقل على مجالات مختلفة، مثل التعرف على الحركات في حالة مُستخرج ميزات الفيديو، والتصنيف الدلالي في حالة مُستخرج ميزات النص. أما التدريب باستخدام إطارات فيديو مُستخرجة بشكل متباعد فقد يعاني من فقدان المعلومات إذا كان الفيديو يحتوي على كمية كبيرة من المعلومات أو يضم عددًا كبيرًا من الإطارات. لمعالجة هذه المشكلات، نقترح نموذجًا يُسمى "محول عابر للوحدات متكرر خفيف الوزن" (Lightweight Recurrent Cross-modal Encoder - LRCE)، والذي يُحلّل عملية الانتباه الذاتي ببساطة عن طريق استبدالها برمز خاص قابل للتعلم يُستخدم لملخص ميزات النص والفيديو. وبذلك، يُقلّل النموذج من التكلفة الحسابية بشكل كبير. علاوةً على ذلك، نقوم بتطبيق تقنية جديدة لاستخراج عينات متعددة الأجزاء، حيث يتم استخراج إطارات الفيديو بشكل متباعد من أجزاء مختلفة من الفيديو، مما يوفر معلومات أكثر دقة وتفصيلًا. وقد أظهرت تجاربنا الواسعة على ثلاث مجموعات بيانات لمهام الإجابة على الأسئلة في الفيديو أن نموذج LRCE يحقق تحسنًا كبيرًا في الأداء مقارنة بالطرق السابقة.

مُشَكِّل عَبْرِيٌّ خفيف الوزن متكرر للوسائط لاستجابة الأسئلة حول الفيديو | أحدث الأوراق البحثية | HyperAI