HyperAIHyperAI
منذ 11 أيام

LASER: الكشف عن المتحدث المدعوم بعلامات الشفاه لتحسين المرونة

Le Thien Phuc Nguyen, Zhuoran Yu, Yong Jae Lee
LASER: الكشف عن المتحدث المدعوم بعلامات الشفاه لتحسين المرونة
الملخص

كشف المتكلم النشط (ASD) يهدف إلى تحديد الأشخاص الذين يتحدثون في المشاهد البصرية المعقدة. بينما يستطيع البشر اكتشاف الكلام من خلال مطابقة حركات الشفاه مع الصوت، فإن النماذج الحالية لـ ASD تواجه صعوبة في إقامة هذه المطابقة، وغالبًا ما تصنف بشكل خاطئ الحالات غير المتكلمة عندما يكون الصوت وحركات الشفاه غير مزامنة. وللتغلب على هذه القيود، نقترح نموذجًا يُسمى LASER (Lip landmark Assisted Speaker dEtection for Robustness)، أي كشف المتكلم المدعوم بعلامات الشفاه لتحسين الموثوقية. على عكس النماذج التي تعتمد فقط على الإطارات الوجهية، يركز LASER بشكل صريح على حركات الشفاه من خلال دمج علامات الشفاه في عملية التدريب. بشكل محدد، عند إعطاء مسار وجه (face track)، يستخرج LASER ميزات بصرية على مستوى الإطار، وتنسيق الإحداثيات ثنائية الأبعاد لعلامات الشفاه باستخدام كاشف خفيف الوزن. تُحوّل هذه الإحداثيات إلى خرائط ميزات كثيفة، مما يوفر معلومات مكانيّة وهندسية حول مواقع الشفاه. وبما أن كاشفات العلامات قد تفشل أحيانًا في الظروف الصعبة (مثل الدقة المنخفضة، أو الازدحام، أو الزوايا القصوى)، ندمج خسارة مساعدة للاتساق لمحاذاة التنبؤات الناتجة من الميزات المدروسة للشفاه والميزات المستمدة فقط من الوجه، مما يضمن أداءً موثوقًا حتى عند غياب بيانات الشفاه. أظهرت تجارب واسعة عبر عدة مجموعات بيانات أن LASER يتفوق على النماذج الرائدة في مجاله، وخاصة في السيناريوهات التي يكون فيها الصوت والصورة غير مزامنين، ما يدل على أداء قوي في السياقات الواقعية للفيديوهات. يمكن الوصول إلى الكود عبر الرابط: \url{https://github.com/plnguyen2908/LASER_ASD}.

LASER: الكشف عن المتحدث المدعوم بعلامات الشفاه لتحسين المرونة | أحدث الأوراق البحثية | HyperAI