HyperAIHyperAI
منذ 15 أيام

ASM-Loc: نمذجة القسم المُدرك للإجراءات لتحديد المواقع الزمنية للإجراءات بتوظيف ضعيف

Bo He, Xitong Yang, Le Kang, Zhiyu Cheng, Xin Zhou, Abhinav Shrivastava
ASM-Loc: نمذجة القسم المُدرك للإجراءات لتحديد المواقع الزمنية للإجراءات بتوظيف ضعيف
الملخص

تهدف التوصيف الزمني للإجراءات الضعيف المُشَغَّل إلى التعرف على أجزاء الإجراء وتحديد موقعها في مقاطع فيديو غير منقولة، باستخدام فقط علامات فئة الفيديو على مستوى الفيديو خلال التدريب. وبما أن هذه المنهجيات لا تمتلك معلومات حول الحدود الخاصة بأجزاء الإجراء، فإنها تعتمد بشكل أساسي على التعلم متعدد الأمثلة (MIL)، حيث تُوجَّه توقعات الأمثلة غير المُعلَّمة (أي مقاطع الفيديو القصيرة) من خلال تصنيف الحقيبة المُعلَّمة (أي الفيديو غير المنقّط). ومع ذلك، فإن هذا النموذج يعامل عادةً المقاطع داخل الفيديو على أنها أمثلة مستقلة، مما يتجاهل الهياكل الزمنية الكامنة داخل وخارج أجزاء الإجراء. لمعالجة هذه المشكلة، نقترح \system، وهي إطار عمل جديد للتصنيف الزمني للإجراءات الضعيف المُشَغَّل (WTAL)، يُمكّن من نمذجة أجزاء الإجراء بشكل صريح وواعٍ بالإجراء، خارج الإطارات التقليدية القائمة على MIL. يتضمن إطارنا ثلاث مكونات مركزة حول الأجزاء: (1) عينة أجزاء ديناميكية لتعويض مساهمة الإجراءات القصيرة؛ (2) انتباه داخلي وخارجي بين الأجزاء لنمذجة الديناميكيات الإجرائية وتحديد الاعتماديات الزمنية؛ (3) إشراف افتراضي على مستوى المثال لتحسين توقع حدود الإجراء. علاوةً على ذلك، نقترح استراتيجية تحسين متعددة المراحل لتحسين تنبؤات الإجراء تدريجيًا خلال عملية تدريب النموذج. أظهرت التجارب الواسعة على مجموعتي بيانات THUMOS-14 وActivityNet-v1.3 فعالية نهجنا، حيث أرسى أداءً جديدًا لحالة الفن (state of the art) على كلا المجموعتين. يُتاح الكود والنموذج بشكل عام عبر الرابط التالي: \url{https://github.com/boheumd/ASM-Loc}.

ASM-Loc: نمذجة القسم المُدرك للإجراءات لتحديد المواقع الزمنية للإجراءات بتوظيف ضعيف | أحدث الأوراق البحثية | HyperAI