منذ 7 أيام

RTQ: إعادة التفكير في فهم الفيديو واللغة على أساس نموذج الصورة والنص

Xiao Wang, Yaoyu Li, Tian Gan, Zheng Zhang, Jingjing Lv, Liqiang Nie

الملخص

أُقيمت التطورات الحديثة في فهم الفيديو واللغة على أساس نماذج الصورة والنص، مما أدى إلى نتائج واعدة بفضل المعرفة المشتركة بين الصور والفيديوهات. ومع ذلك، يواجه فهم الفيديو واللغة تحديات فريدة ناتجة عن تضمين تفاصيل معنوية معقدة للغاية، مما يسبب تكرار المعلومات، والاعتماد الزمني، وتعقيد المشهد. ورغم أن التقنيات الحالية قد تصدت جزئياً لهذه المشكلات، فإن تحليلنا الكمي يشير إلى أن بعض هذه الطرق مكملة لبعضها البعض. وبناءً على ذلك، نقترح إطاراً جديداً يُسمى RTQ (إعادة التشكيل، النموذج الزمني، والاستعلام)، والذي يعالج هذه التحديات بشكل متزامن. يعتمد هذا النهج على تحسين المعلومات الزائدة داخل الإطارات، ونمذجة العلاقات الزمنية بين الإطارات، واستخلاص المعلومات الخاصة بالمهمة من الفيديوهات. ويُبرز نموذجنا أداءً متميزاً حتى في غياب التدريب المسبق على بيانات الفيديو واللغة، مع تحقيق نتائج تُقاس أو تفوق النتائج التي تحققها أفضل الطرق المُدرَّبة مسبقاً في الحد الأدنى. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/SCZwangxiao/RTQ-MM2023.