HyperAIHyperAI

Command Palette

Search for a command to run...

LASER: الكشف عن المتحدث المدعوم بعلامات الشفاه لتحسين المرونة

Le Thien Phuc Nguyen Zhuoran Yu Yong Jae Lee

الملخص

كشف المتكلم النشط (ASD) يهدف إلى تحديد الأشخاص الذين يتحدثون في المشاهد البصرية المعقدة. بينما يستطيع البشر اكتشاف الكلام من خلال مطابقة حركات الشفاه مع الصوت، فإن النماذج الحالية لـ ASD تواجه صعوبة في إقامة هذه المطابقة، وغالبًا ما تصنف بشكل خاطئ الحالات غير المتكلمة عندما يكون الصوت وحركات الشفاه غير مزامنة. وللتغلب على هذه القيود، نقترح نموذجًا يُسمى LASER (Lip landmark Assisted Speaker dEtection for Robustness)، أي كشف المتكلم المدعوم بعلامات الشفاه لتحسين الموثوقية. على عكس النماذج التي تعتمد فقط على الإطارات الوجهية، يركز LASER بشكل صريح على حركات الشفاه من خلال دمج علامات الشفاه في عملية التدريب. بشكل محدد، عند إعطاء مسار وجه (face track)، يستخرج LASER ميزات بصرية على مستوى الإطار، وتنسيق الإحداثيات ثنائية الأبعاد لعلامات الشفاه باستخدام كاشف خفيف الوزن. تُحوّل هذه الإحداثيات إلى خرائط ميزات كثيفة، مما يوفر معلومات مكانيّة وهندسية حول مواقع الشفاه. وبما أن كاشفات العلامات قد تفشل أحيانًا في الظروف الصعبة (مثل الدقة المنخفضة، أو الازدحام، أو الزوايا القصوى)، ندمج خسارة مساعدة للاتساق لمحاذاة التنبؤات الناتجة من الميزات المدروسة للشفاه والميزات المستمدة فقط من الوجه، مما يضمن أداءً موثوقًا حتى عند غياب بيانات الشفاه. أظهرت تجارب واسعة عبر عدة مجموعات بيانات أن LASER يتفوق على النماذج الرائدة في مجاله، وخاصة في السيناريوهات التي يكون فيها الصوت والصورة غير مزامنين، ما يدل على أداء قوي في السياقات الواقعية للفيديوهات. يمكن الوصول إلى الكود عبر الرابط: \url{https://github.com/plnguyen2908/LASER_ASD}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LASER: الكشف عن المتحدث المدعوم بعلامات الشفاه لتحسين المرونة | مستندات | HyperAI