TempCLR: تمثيل التوقيت بالتعلم المقارن

لقد حققت تقنيات تعلم تمثيل الفيديو نجاحًا في التدريب المسبق للفيديو والنصللنقل الصفر، حيث يتم تدريب كل جملة لتكون قريبة من المقاطع المرتبطة بها من الفيديو في فضاء خصائص مشترك. بالنسبة للفيديوهات الطويلة، عند تقديم فقرة وصفية حيث تصف الجمل مقاطع مختلفة من الفيديو، يتم مواءمة جميع أزواج الجمل-المقاطع ضمنياً، مما يؤدي إلى مواءمة الفقرة والفيديو الكامل. ومع ذلك، قد يتجاهل مثل هذا المقارنة على مستوى الوحدات السياق الزمني الشامل، مما يحد حتماً من قدرة التعميم. في هذه الورقة البحثية، نقترح إطارًا للتعلم التبايني يُسمى TempCLR لمقارنة الفيديو الكامل والفقرة بشكل صريح. مع اعتبار الفيديو/الفقرة كمتتابعة من المقاطع/الجمل، تحت قيد ترتيبها الزمني، نستخدم تطابق الوقت الديناميكي لحساب أقل التكاليف التراكمية لأزواج الجمل-المقاطع كمسافة على مستوى المتتابعة. لاستكشاف الديناميات الزمنية، نكسر اتساق الخلاف الزمني بخلط مقاطع الفيديو وفقًا للحبيبية الزمنية (temporal granularity). ثم نحصل على التمثيلات للمقاطع/الجمل التي تستشعر المعلومات الزمنية وتيسّر بالتالي مواءمة المتتابعة. بالإضافة إلى التدريب المسبق على الفيديو والفقرة، يمكن أن يتعمم نهجنا أيضًا على مطابقة حالات الفيديو. نقيم نهجنا في استرجاع الفيديو وتحديد خطوات العمل وتعرف الأنشطة بنماذج قليلة (few-shot action recognition)، ونحقق زيادة أداء ثابتة في جميع هذه المهام الثلاثة. يتم تقديم دراسات تقليص مفصلة لتبرير تصميم النهج.请注意,"temporal granularity" 和 "few-shot action recognition" 是不太常见的术语,因此我在它们后面加上了英文注释以确保信息的完整性。