Command Palette
Search for a command to run...
TalkNCE: تحسين كشف المتحدث النشط باستخدام التعلم التبايني القائم على الكلام
TalkNCE: تحسين كشف المتحدث النشط باستخدام التعلم التبايني القائم على الكلام
Chaeyoung Jung extsuperscript1* Suyeon Lee extsuperscript1* Kihyun Nam extsuperscript1 Kyeongha Rho extsuperscript1 You Jin Kim extsuperscript2 Youngjoon Jang extsuperscript1 Joon Son Chung extsuperscript1
الملخص
هدف هذا العمل هو اكتشاف المتحدث النشط (Active Speaker Detection - ASD)، وهو مهمة لتحديد ما إذا كان شخص يتحدث أم لا في سلسلة من الإطارات الفيديوية. الأعمال السابقة قد تعاملت مع هذه المهمة من خلال استكشاف هياكل الشبكات، بينما كانت تعلم التمثيلات الفعالة أقل استكشافًا. في هذا العمل، نقترح TalkNCE، وهو خسارة تباينية جديدة واعية للمحادثة. يتم تطبيق الخسارة فقط على جزء من المقاطع الكاملة حيث يكون الشخص على الشاشة فعليًا يتحدث. هذا يشجع النموذج على تعلم التمثيلات الفعالة من خلال التوافق الطبيعي بين الكلام والحركات الوجهية. يمكن تحسين خسارتنا بشكل مشترك مع الأهداف الحالية لتدريب نماذج ASD دون الحاجة إلى إشراف إضافي أو بيانات تدريبية. تظهر التجارب أن خسارتنا يمكن دمجها بسهولة في الإطارات الحالية لـ ASD، مما يحسن أداءها. حققت طريقتنا أفضل الأداء الحالي على مجموعات البيانات AVA-ActiveSpeaker و ASW.