HyperAIHyperAI
منذ 13 أيام

اسمعني: نُهُج مُدمجة لتحديد المواقع الزمنية للإجراءات المعززة بالصوت

Anurag Bagchi, Jazib Mahmood, Dolton Fernandes, Ravi Kiran Sarvadevabhatla
اسمعني: نُهُج مُدمجة لتحديد المواقع الزمنية للإجراءات المعززة بالصوت
الملخص

البنية المعمارية المتطورة لتحديد الأفعال الزمنية في مقاطع الفيديو غير المُعدّلة (TAL) قد اقتصرت حتى الآن على استخدام وحدتي البيانات المرئية (RGB) وتدفق الحركة (Flow)، مما أدى إلى إهمال تمامًا وحدة الصوت الغنية بالمعلومات. وقد تم استكشاف دمج الصوت في المشكلة المرتبطة ولكنها على الأرجح أسهل، وهي التعرف على الأفعال على مستوى المقاطع (clip-level). ومع ذلك، فإن TAL تطرح مجموعة فريدة من التحديات. في هذا البحث، نقترح طرقًا بسيطة ولكن فعّالة تعتمد على الدمج لحل TAL. إلى أقصى معرفة لدينا، فإن عملنا هو الأول الذي يأخذ بعين الاعتبار بشكل متكامل وحدتي الصوت والفيديو في سياق TAL المُشرف. نُظهر تجريبيًا أن نُهجنا تُحسّن باستمرار الأداء بالنسبة للأساليب المتطورة الحالية التي تعتمد فقط على الفيديو. وبشكل خاص، تُسهم في تحقيق أداء جديد يُعدّ الأفضل على مستوى مجموعات البيانات الكبيرة، مثل ActivityNet-1.3 (54.34 [email protected]) وTHUMOS14 (57.18 [email protected]). تشمل تجاربنا تحليلات تفصيلية تتضمّن عدة أساليب دمج، وتركيبات وحدات مختلفة، وأساليب معمارية لـ TAL. ويجدر بالذكر أن الكود، النماذج، والبيانات المرتبطة بها متاحة على الرابط: https://github.com/skelemoa/tal-hmo.

اسمعني: نُهُج مُدمجة لتحديد المواقع الزمنية للإجراءات المعززة بالصوت | أحدث الأوراق البحثية | HyperAI