منذ 6 أشهر

الملخص

كشف المتكلم النشط (ASD) يهدف إلى تحديد الأشخاص الذين يتحدثون في المشاهد البصرية المعقدة. بينما يستطيع البشر اكتشاف الكلام من خلال مطابقة حركات الشفاه مع الصوت، فإن النماذج الحالية لـ ASD تواجه صعوبة في إقامة هذه المطابقة، وغالبًا ما تصنف بشكل خاطئ الحالات غير المتكلمة عندما يكون الصوت وحركات الشفاه غير مزامنة. وللتغلب على هذه القيود، نقترح نموذجًا يُسمى LASER (Lip landmark Assisted Speaker dEtection for Robustness)، أي كشف المتكلم المدعوم بعلامات الشفاه لتحسين الموثوقية. على عكس النماذج التي تعتمد فقط على الإطارات الوجهية، يركز LASER بشكل صريح على حركات الشفاه من خلال دمج علامات الشفاه في عملية التدريب. بشكل محدد، عند إعطاء مسار وجه (face track)، يستخرج LASER ميزات بصرية على مستوى الإطار، وتنسيق الإحداثيات ثنائية الأبعاد لعلامات الشفاه باستخدام كاشف خفيف الوزن. تُحوّل هذه الإحداثيات إلى خرائط ميزات كثيفة، مما يوفر معلومات مكانيّة وهندسية حول مواقع الشفاه. وبما أن كاشفات العلامات قد تفشل أحيانًا في الظروف الصعبة (مثل الدقة المنخفضة، أو الازدحام، أو الزوايا القصوى)، ندمج خسارة مساعدة للاتساق لمحاذاة التنبؤات الناتجة من الميزات المدروسة للشفاه والميزات المستمدة فقط من الوجه، مما يضمن أداءً موثوقًا حتى عند غياب بيانات الشفاه. أظهرت تجارب واسعة عبر عدة مجموعات بيانات أن LASER يتفوق على النماذج الرائدة في مجاله، وخاصة في السيناريوهات التي يكون فيها الصوت والصورة غير مزامنين، ما يدل على أداء قوي في السياقات الواقعية للفيديوهات. يمكن الوصول إلى الكود عبر الرابط: \url{https://github.com/plnguyen2908/LASER_ASD}.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Le Thien Phuc Nguyen Zhuoran Yu Yong Jae Lee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Le Thien Phuc Nguyen Zhuoran Yu Yong Jae Lee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Le Thien Phuc Nguyen Zhuoran Yu Yong Jae Lee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LASER: الكشف عن المتحدث المدعوم بعلامات الشفاه لتحسين المرونة

Le Thien Phuc Nguyen Zhuoran Yu Yong Jae Lee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LASER: الكشف عن المتحدث المدعوم بعلامات الشفاه لتحسين المرونة

Le Thien Phuc Nguyen Zhuoran Yu Yong Jae Lee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LASER: الكشف عن المتحدث المدعوم بعلامات الشفاه لتحسين المرونة

Le Thien Phuc Nguyen Zhuoran Yu Yong Jae Lee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters