HyperAIHyperAI

Command Palette

Search for a command to run...

اسمعني: نُهُج مُدمجة لتحديد المواقع الزمنية للإجراءات المعززة بالصوت

Anurag Bagchi Jazib Mahmood Dolton Fernandes Ravi Kiran Sarvadevabhatla

الملخص

البنية المعمارية المتطورة لتحديد الأفعال الزمنية في مقاطع الفيديو غير المُعدّلة (TAL) قد اقتصرت حتى الآن على استخدام وحدتي البيانات المرئية (RGB) وتدفق الحركة (Flow)، مما أدى إلى إهمال تمامًا وحدة الصوت الغنية بالمعلومات. وقد تم استكشاف دمج الصوت في المشكلة المرتبطة ولكنها على الأرجح أسهل، وهي التعرف على الأفعال على مستوى المقاطع (clip-level). ومع ذلك، فإن TAL تطرح مجموعة فريدة من التحديات. في هذا البحث، نقترح طرقًا بسيطة ولكن فعّالة تعتمد على الدمج لحل TAL. إلى أقصى معرفة لدينا، فإن عملنا هو الأول الذي يأخذ بعين الاعتبار بشكل متكامل وحدتي الصوت والفيديو في سياق TAL المُشرف. نُظهر تجريبيًا أن نُهجنا تُحسّن باستمرار الأداء بالنسبة للأساليب المتطورة الحالية التي تعتمد فقط على الفيديو. وبشكل خاص، تُسهم في تحقيق أداء جديد يُعدّ الأفضل على مستوى مجموعات البيانات الكبيرة، مثل ActivityNet-1.3 (54.34 [email protected]) وTHUMOS14 (57.18 [email protected]). تشمل تجاربنا تحليلات تفصيلية تتضمّن عدة أساليب دمج، وتركيبات وحدات مختلفة، وأساليب معمارية لـ TAL. ويجدر بالذكر أن الكود، النماذج، والبيانات المرتبطة بها متاحة على الرابط: https://github.com/skelemoa/tal-hmo.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp