HyperAIHyperAI
منذ 11 أيام

BasicTAD: أساسية مذهلة تعتمد فقط على الألوان RGB للكشف عن الإجراءات الزمنية

Min Yang, Guo Chen, Yin-Dong Zheng, Tong Lu, Limin Wang
BasicTAD: أساسية مذهلة تعتمد فقط على الألوان RGB للكشف عن الإجراءات الزمنية
الملخص

تم دراسة كشف الأفعال الزمنية (TAD) بشكل واسع في مجتمع فهم الفيديو، وذلك من خلال اتباع نموذج كشف الكائنات في الصور بشكل عام. ومع ذلك، فإن التصاميم المعقدة ليست نادرة في TAD، مثل استخلاص الميزات ثنائية التدفق، والتدريب متعدد المراحل، ونمذجة زمنية معقدة، ودمج السياق العالمي. في هذه الورقة، لا نهدف إلى تقديم تقنية جديدة لـ TAD. بل نركز على دراسة قاعدة بسيطة وواضحة، ولكنها ضرورية، بالنظر إلى الوضع الحالي الذي يمتاز بتصميم معقد وفعالية كشف منخفضة في TAD. في قاعدتنا البسيطة (التي تُسمى BasicTAD)، نقوم بتفكيك مسار TAD إلى مكونات أساسية عدة: أخذ العينات من البيانات، وتصميم الهيكل الأساسي (backbone)، وبناء الجزء الوسطي (neck)، وتصميم رأس الكشف. قمنا بدراسة موسعة للتقنيات الحالية في كل مكون ضمن هذه القاعدة، وأهم من ذلك، نفذنا تدريباً من الطرف إلى الطرف (end-to-end) عبر كامل المسار بفضل بساطة التصميم. نتيجة لذلك، تُظهر هذه القاعدة البسيطة BasicTAD أداءً مذهلاً وقابلًا للتشغيل في الوقت الفعلي كقاعدة باستخدام صور RGB فقط، وتقريبًا تصل إلى مستوى أفضل الطرق الحالية التي تعتمد على مدخلات ثنائية التدفق. بالإضافة إلى ذلك، قمنا بتحسين BasicTAD أكثر من خلال الحفاظ على معلومات زمنية ومكانية أكثر في تمثيل الشبكة (والتي تُسمى PlusTAD). أظهرت النتائج التجريبية أن PlusTAD فعالة للغاية، وتفوق بشكل ملحوظ الطرق السابقة على مجموعتي بيانات THUMOS14 وFineAction. وفي الوقت نفسه، أجرينا تحليلًا بصريًا متعمقًا وتحليلًا للخطأ على الطريقة المقترحة، ونحاول تقديم رؤى إضافية حول مشكلة TAD. يمكن أن تُستخدم طريقتنا كقاعدة قوية للأبحاث المستقبلية في مجال TAD. سيتم نشر الشفرة والنموذج على الرابط التالي: https://github.com/MCG-NJU/BasicTAD.

BasicTAD: أساسية مذهلة تعتمد فقط على الألوان RGB للكشف عن الإجراءات الزمنية | أحدث الأوراق البحثية | HyperAI