HyperAIHyperAI
منذ 16 أيام

كشف الإجراء الزمني من الطرف إلى الطرف باستخدام 1B معامل عبر 1000 إطار

Shuming Liu, Chen-Lin Zhang, Chen Zhao, Bernard Ghanem
كشف الإجراء الزمني من الطرف إلى الطرف باستخدام 1B معامل عبر 1000 إطار
الملخص

في الآونة الأخيرة، شهد اكتشاف الأفعال الزمنية (TAD) تحسّنًا كبيرًا في الأداء بفضل التدريب من النهاية إلى النهاية. ومع ذلك، نظرًا لعائق الذاكرة، يمكن فقط النماذج ذات الحجم المحدود والكميات المحدودة من البيانات التمكّن من التدريب من النهاية إلى النهاية، مما يحدّ من أداء TAD بشكل لا مفر منه. في هذه الورقة، نقلل من استهلاك الذاكرة أثناء التدريب من النهاية إلى النهاية، ونتمكن من توسيع نموذج الأساس (backbone) الخاص بـ TAD ليصل إلى مليار معلمة، وزيادة طول الفيديو المدخل إلى 1536 إطارًا، ما أدى إلى تحسين كبير في أداء الكشف. تكمن الفكرة الأساسية في نهجنا في وحدة التكيّف الزمنية المُنبِتة (TIA)، وهي وحدة خفيفة الوزن جديدة تقلل من استهلاك الذاكرة أثناء التدريب. باستخدام TIA، نُحرّر النموذج الكبير من ضرورة تعلّم التكيّف مع مهمة TAD، حيث نقوم بتحديث معلمات TIA فقط. كما تؤدي TIA إلى تمثيل أفضل لـ TAD من خلال تجميع السياق الزمني من الإطارات المجاورة على طول النموذج الأساسي. قمنا بتقييم نموذجنا على أربع مجموعات بيانات تمثيلية. وبفضل تصميمنا الفعّال، تمكنّا من التدريب من النهاية إلى النهاية على VideoMAEv2-giant، وحققنا مؤشرًا قدره 75.4% mAP على THUMOS14، ما يجعلنا أول نموذج مُدرّب من النهاية إلى النهاية يتفوّق على أفضل الطرق القائمة على السمات. يمكن الاطلاع على الكود من خلال الرابط: https://github.com/sming256/AdaTAD.

كشف الإجراء الزمني من الطرف إلى الطرف باستخدام 1B معامل عبر 1000 إطار | أحدث الأوراق البحثية | HyperAI