SViTT: التعلم الزمني للمتحولات النصية الفيديوية النادرة

هل يتعلم متحولات الفيديو-النص نمذجة العلاقات الزمنية عبر الإطارات؟ على الرغم من قدرتها الهائلة ووفرة البيانات التدريبية متعددة الوسائط، كشفت الأبحاث الحديثة عن ميل قوي لمتحولات الفيديو-النص نحو تمثيلات فضائية قائمة على الإطارات، بينما تظل المنطقية الزمنية مشكلة غير محلولة إلى حد كبير. في هذا البحث، نحدد عدة تحديات رئيسية في تعلم العلاقات الزمنية لمتحولات الفيديو-النص: التوازن المكاني-الزماني الناجم عن حجم الشبكة المحدود؛ لعنة البعد للنمذجة متعددة الإطارات؛ وانخفاض العائد من المعلومات الدلالية بزيادة طول المشهد. استرشادًا بهذه النتائج، نقترح SViTT، وهي هندسة فيديو-نص نادرة تقوم بالمنطقية متعددة الإطارات بتكلفة أقل بكثير من المتحولات الساذجة ذات الانتباه الكثيف. مشابهة للشبكات القائمة على الرسم البياني، تعتمد SViTT على نوعين من الندرة: ندرة الحواف التي تحد من التواصل بين عناصر الاستعلام والمفتاح في الانتباه الذاتي، وندرة العقد التي تتخلص من العناصر المرئية غير المعلوماتية. يتم تدريبها بموجب برنامج تعليمي يزيد فيه درجة ندرة النموذج مع زيادة طول المشهد، مما يجعل SViTT تتفوق على أساسيات المتحولات الكثيفة في عدة مقاييس لاسترجاع الفيديو-النص وإجابات الأسئلة، وبجزء صغير من التكلفة الحسابية. صفحة المشروع: http://svcl.ucsd.edu/projects/svitt.