HyperAIHyperAI

Command Palette

Search for a command to run...

كشف الإجراء الزمني من الطرف إلى الطرف باستخدام 1B معامل عبر 1000 إطار

Shuming Liu Chen-Lin Zhang Chen Zhao Bernard Ghanem

الملخص

في الآونة الأخيرة، شهد اكتشاف الأفعال الزمنية (TAD) تحسّنًا كبيرًا في الأداء بفضل التدريب من النهاية إلى النهاية. ومع ذلك، نظرًا لعائق الذاكرة، يمكن فقط النماذج ذات الحجم المحدود والكميات المحدودة من البيانات التمكّن من التدريب من النهاية إلى النهاية، مما يحدّ من أداء TAD بشكل لا مفر منه. في هذه الورقة، نقلل من استهلاك الذاكرة أثناء التدريب من النهاية إلى النهاية، ونتمكن من توسيع نموذج الأساس (backbone) الخاص بـ TAD ليصل إلى مليار معلمة، وزيادة طول الفيديو المدخل إلى 1536 إطارًا، ما أدى إلى تحسين كبير في أداء الكشف. تكمن الفكرة الأساسية في نهجنا في وحدة التكيّف الزمنية المُنبِتة (TIA)، وهي وحدة خفيفة الوزن جديدة تقلل من استهلاك الذاكرة أثناء التدريب. باستخدام TIA، نُحرّر النموذج الكبير من ضرورة تعلّم التكيّف مع مهمة TAD، حيث نقوم بتحديث معلمات TIA فقط. كما تؤدي TIA إلى تمثيل أفضل لـ TAD من خلال تجميع السياق الزمني من الإطارات المجاورة على طول النموذج الأساسي. قمنا بتقييم نموذجنا على أربع مجموعات بيانات تمثيلية. وبفضل تصميمنا الفعّال، تمكنّا من التدريب من النهاية إلى النهاية على VideoMAEv2-giant، وحققنا مؤشرًا قدره 75.4% mAP على THUMOS14، ما يجعلنا أول نموذج مُدرّب من النهاية إلى النهاية يتفوّق على أفضل الطرق القائمة على السمات. يمكن الاطلاع على الكود من خلال الرابط: https://github.com/sming256/AdaTAD.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp