HyperAIHyperAI
منذ 2 أشهر

EVEREST: كود تلقائي فعال للفيديو بماسكات بإزالة الرموز الزمانية المكانية الزائدة

Sunil Hwang; Jaehong Yoon; Youngwan Lee; Sung Ju Hwang
EVEREST: كود تلقائي فعال للفيديو بماسكات بإزالة الرموز الزمانية المكانية الزائدة
الملخص

أثبتت نماذج الترميز التلقائي للفيديو المقنّع (MVA) إمكاناتها من خلال تفوقها بشكل كبير على طرق تعلم تمثيل الفيديو السابقة. ومع ذلك، فإن استراتيجيات التعتيم العشوائي تضيع كمية كبيرة من الحسابات والذاكرة في التنبؤ بالرموز/الإطارات غير المعلوماتية. (مثلاً، أكثر من 16 عقدًا مع 128 بطاقة معالجة رسومية NVIDIA A100). لحل هذه المشكلة، نستغل الكثافة المعلوماتية غير المتساوية بين الأقسام في الفيديوهات ونقترح نظام EVEREST، وهو نهج فعال بشكل مدهش لترميز الفيديو المقنّع يكتشف الرموز التي تحتوي على ميزات حركة غنية ويتجاهل تلك غير المعلوماتية أثناء التدريب الأولي والضبط الدقيق. كما نقدم استراتيجية اختيار الإطارات ذات الكثافة المعلوماتية المرتفعة التي تسمح للنموذج بالتركيز على الإطارات المعلوماتية والعالية السببية بأقل قدر من التكرار. يقلل نظامنا بشكل كبير من متطلبات الحسابات والذاكرة لنماذج MVA، مما يمكنه من التدريب الأولي والضبط الدقيق على جهاز واحد به 8 بطاقات معالجة رسومية بينما يحقق أداءً مماثلاً لتلك النماذج الأساسية التي تتطلب حسابات وذاكرة كبيرة في العديد من المقاييس وفي مجموعة البيانات Ego4D الغير مشروحة. نأمل أن يساهم عملنا في خفض الحواجز أمام البحث المزيد حول فهم الفيديو.

EVEREST: كود تلقائي فعال للفيديو بماسكات بإزالة الرموز الزمانية المكانية الزائدة | أحدث الأوراق البحثية | HyperAI