HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم متعدد المهام للكشف عن المتكلم النشط الصوتي البصري

Shiguang Shan Shuang Yang Jingyun Xiao Yuanhang Zhang

الملخص

يصف هذا التقرير النهج الذي يُعدّ أساسًا لتقديمنا في مهمة تحديد المُتحدث النشط (المهمة B-2) ضمن مسابقة ActivityNet Challenge 2019. نقدم نموذجًا صوتيًا-بصريًا جديدًا يُبنى على نموذج بصري ثلاثي الأبعاد من نوع 3D-ResNet18، تم تدريبه مسبقًا على قراءة الشفاه، ونموذج صوتي من نوع VGG-M، تم تدريبه مسبقًا على مزامنة الصوت مع الفيديو. يتم تدريب النموذج باستخدام خانتين من الخسائر بطريقة التعلم متعدد المهام: خسارة تقابلية (contrastive loss) لتعزيز التوافق بين السمات الصوتية والبصرية للمتحدثين النشطين، وخسارة التباديل التقليدية (cross-entropy loss) للحصول على تسميات المتحدثين/غير المتحدثين. وقد حقق هذا النموذج تقييمًا بنسبة 84.0% في مؤشر mAP على مجموعة التحقق من AVAActiveSpeaker. وتُظهر النتائج التجريبية قدرة التضمينات المُدرّبة مسبقًا على الانتقال بين المهام وتنسيقات البيانات المختلفة، فضلًا عن الميزة التي يوفرها الاستراتيجية المقترحة للتعلم متعدد المهام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم متعدد المهام للكشف عن المتكلم النشط الصوتي البصري | مستندات | HyperAI