الملخص

هدف هذا العمل هو اكتشاف المتحدث النشط (Active Speaker Detection - ASD)، وهو مهمة لتحديد ما إذا كان شخص يتحدث أم لا في سلسلة من الإطارات الفيديوية. الأعمال السابقة قد تعاملت مع هذه المهمة من خلال استكشاف هياكل الشبكات، بينما كانت تعلم التمثيلات الفعالة أقل استكشافًا. في هذا العمل، نقترح TalkNCE، وهو خسارة تباينية جديدة واعية للمحادثة. يتم تطبيق الخسارة فقط على جزء من المقاطع الكاملة حيث يكون الشخص على الشاشة فعليًا يتحدث. هذا يشجع النموذج على تعلم التمثيلات الفعالة من خلال التوافق الطبيعي بين الكلام والحركات الوجهية. يمكن تحسين خسارتنا بشكل مشترك مع الأهداف الحالية لتدريب نماذج ASD دون الحاجة إلى إشراف إضافي أو بيانات تدريبية. تظهر التجارب أن خسارتنا يمكن دمجها بسهولة في الإطارات الحالية لـ ASD، مما يحسن أداءها. حققت طريقتنا أفضل الأداء الحالي على مجموعات البيانات AVA-ActiveSpeaker و ASW.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار