HyperAIHyperAI
منذ 2 أشهر

RGNet: شبكة موحدة لاسترجاع وترسيخ المقاطع في الفيديوهات الطويلة

Hannan, Tanveer ; Islam, Md Mohaiminul ; Seidl, Thomas ; Bertasius, Gedas
RGNet: شبكة موحدة لاسترجاع وترسيخ المقاطع في الفيديوهات الطويلة
الملخص

تحديد لحظات محددة داخل مقاطع الفيديو الطويلة (20-120 دقيقة) يمثل تحديًا كبيرًا، مشابهًا للبحث عن إبرة في كومة قش. تطبيق طرق التأصيل الموجودة للفيديوهات القصيرة (5-30 ثانية) على هذه المشكلة يؤدي إلى أداء ضعيف. نظرًا لأن معظم مقاطع الفيديو الحقيقية، مثل تلك الموجودة على YouTube و AR/VR، تكون طويلة، فإن معالجة هذا الموضوع تعتبر حاسمة. الطرق الحالية تعمل عادةً في مرحلتين: استرجاع المقاطع والتأصيل. ومع ذلك، فإن هذا العملية المنفصلة تحد من فهم الوحدة الاسترجاعية للأحداث بدقة عالية، وهو أمر ضروري للكشف عن اللحظات المحددة. نقترح استخدام شبكة RGNet التي تدمج بعمق استرجاع المقاطع والتأصيل في شبكة واحدة قادرة على معالجة الفيديوهات الطويلة إلى مستويات متعددة من الدقة، مثل المقاطع والأطر. المكون الرئيسي لهذه الشبكة هو محول مرمّز جديد يُدعى RG-Encoder، الذي يوحّد المرحلتين من خلال الخصائص المشتركة والتحسين المتبادل. يضم المحول آلية انتباه نادر وخسارة الانتباه لنمذجة المستويين معًا. بالإضافة إلى ذلك، نقدم تقنية عينة مقاطع مقارنة لتقليد نموذج الفيديو الطويل بشكل أقرب أثناء التدريب. RGNet تتفوق على الطرق السابقة وتظهر أداءً رائدًا في مجموعات البيانات الخاصة بالتأصيل الزمني للفيديوهات الطويلة (LVTG) مثل MAD و Ego4D.