HyperAIHyperAI
منذ 2 أشهر

تعلم التمثيلات البصرية من البداية إلى النهاية من مقاطع الفيديو التعليمية غير المحررة

Miech, Antoine ; Alayrac, Jean-Baptiste ; Smaira, Lucas ; Laptev, Ivan ; Sivic, Josef ; Zisserman, Andrew
تعلم التمثيلات البصرية من البداية إلى النهاية من مقاطع الفيديو التعليمية غير المحررة
الملخص

توضيح الفيديوهات أمر مرهق ومكلف ولا يمكن توسيعه. ومع ذلك، لا تزال العديد من النماذج القوية للفيديو تعتمد على البيانات المُشَرَّحة يدويًا. مع تقديم مجموعة البيانات HowTo100M مؤخرًا، أصبحت الفيديوهات التي يتم سردها بصوت now تقدم إمكانية تعلم تمثيلات الفيديو دون إشراف يدوي. في هذا العمل، نقترح نهجًا جديدًا للتعلم، وهو MIL-NCE، قادر على التعامل مع عدم التوافق المتأصل في الفيديوهات التي يتم سردها بصوت. باستخدام هذا النهج، نتمكن من تعلم تمثيلات فيديو قوية من الصفر، دون الحاجة إلى أي توضيح يدوي. نقيم تمثيلاتنا على نطاق واسع من أربع مهام ثانوية عبر ثماني مجموعات بيانات: التعرف على الحركات (HMDB-51، UCF-101، Kinetics-700)، استرجاع الفيديو من النص (YouCook2، MSR-VTT)، تحديد موقع الحركة (YouTube-8M Segments، CrossTask) وتقسيم الحركة (COIN). طريقة عملنا تتفوق على جميع الطرق الذاتية الإشرافية المنشورة لهذه المهام وكذلك عدة أسس مُشرف عليها بالكامل.请注意,为了更好地符合阿拉伯语的表达习惯,我将“now”一词进行了适当处理,使其在句子中更加自然。同时,对于一些专有名词如数据集名称(例如HMDB-51、UCF-101等),保留了其英文形式以确保专业性和信息完整性。

تعلم التمثيلات البصرية من البداية إلى النهاية من مقاطع الفيديو التعليمية غير المحررة | أحدث الأوراق البحثية | HyperAI