HyperAIHyperAI

Command Palette

Search for a command to run...

RGNet: شبكة موحدة لاسترجاع وترسيخ المقاطع في الفيديوهات الطويلة

Hannan Tanveer ; Islam Md Mohaiminul ; Seidl Thomas ; Bertasius Gedas

الملخص

تحديد لحظات محددة داخل مقاطع الفيديو الطويلة (20-120 دقيقة) يمثل تحديًا كبيرًا، مشابهًا للبحث عن إبرة في كومة قش. تطبيق طرق التأصيل الموجودة للفيديوهات القصيرة (5-30 ثانية) على هذه المشكلة يؤدي إلى أداء ضعيف. نظرًا لأن معظم مقاطع الفيديو الحقيقية، مثل تلك الموجودة على YouTube و AR/VR، تكون طويلة، فإن معالجة هذا الموضوع تعتبر حاسمة. الطرق الحالية تعمل عادةً في مرحلتين: استرجاع المقاطع والتأصيل. ومع ذلك، فإن هذا العملية المنفصلة تحد من فهم الوحدة الاسترجاعية للأحداث بدقة عالية، وهو أمر ضروري للكشف عن اللحظات المحددة. نقترح استخدام شبكة RGNet التي تدمج بعمق استرجاع المقاطع والتأصيل في شبكة واحدة قادرة على معالجة الفيديوهات الطويلة إلى مستويات متعددة من الدقة، مثل المقاطع والأطر. المكون الرئيسي لهذه الشبكة هو محول مرمّز جديد يُدعى RG-Encoder، الذي يوحّد المرحلتين من خلال الخصائص المشتركة والتحسين المتبادل. يضم المحول آلية انتباه نادر وخسارة الانتباه لنمذجة المستويين معًا. بالإضافة إلى ذلك، نقدم تقنية عينة مقاطع مقارنة لتقليد نموذج الفيديو الطويل بشكل أقرب أثناء التدريب. RGNet تتفوق على الطرق السابقة وتظهر أداءً رائدًا في مجموعات البيانات الخاصة بالتأصيل الزمني للفيديوهات الطويلة (LVTG) مثل MAD و Ego4D.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
RGNet: شبكة موحدة لاسترجاع وترسيخ المقاطع في الفيديوهات الطويلة | مستندات | HyperAI