HyperAIHyperAI

Command Palette

Search for a command to run...

MAAS: التخصيص متعدد الوسائط لاكتشاف المتحدث النشط

Juan León Alcázar Fabian Caba Heilbron Ali K. Thabet Bernard Ghanem

الملخص

اكتشاف المتحدث النشط يتطلب دمجًا متينًا للإشارات المتعددة الأوضاع (multi-modal cues).بينما يمكن للأوضاع الفردية تقريب حل، فإن التوقعات الدقيقةلا يمكن تحقيقها إلا من خلال دمج صريح للميزات الصوتية والبصرية ونمذجة تقدمها الزمني. على الرغم من طبيعتها المتعددة الأوضاع بشكل متأصل،تظل الطرق الحالية تركز على نمذجة ودمج الميزات السمعية-البصرية قصيرة المدىلمتحدثين فرديين، غالبًا على مستوى الإطار. في هذا البحث، نقدمنهجًا جديدًا لاكتشاف المتحدث النشط يعالج مباشرةً الطابع المتعدد الأوضاع للمشكلة، ويوفر استراتيجية بسيطةحيث يتم تعيين الميزات البصرية المستقلة من المتحدثين المحتملين في المشهدلحدث كلامي تم اكتشافه سابقًا. تظهر تجاربنا أن بنية بيانات الرسم البياني الصغيرة التي تم بناؤها من إطار واحد فقط، تسمح بتقريب مشكلة التعيين السمعي-البصري الفوري. علاوة على ذلك، فإن توسيع هذه البنية البيانية الأولية زمنيًا يحقق أداءً جديدًا يتفوق على الحالة الحالية للفن (state-of-the-art) في مجموعة بيانات AVA-ActiveSpeaker بمتوسط دقة (mAP) بنسبة 88.8%.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp