HyperAIHyperAI

Command Palette

Search for a command to run...

TalkNCE: تحسين كشف المتحدث النشط باستخدام التعلم التبايني القائم على الكلام

Chaeyoung Jung extsuperscript1* Suyeon Lee extsuperscript1* Kihyun Nam extsuperscript1 Kyeongha Rho extsuperscript1 You Jin Kim extsuperscript2 Youngjoon Jang extsuperscript1 Joon Son Chung extsuperscript1

الملخص

هدف هذا العمل هو اكتشاف المتحدث النشط (Active Speaker Detection - ASD)، وهو مهمة لتحديد ما إذا كان شخص يتحدث أم لا في سلسلة من الإطارات الفيديوية. الأعمال السابقة قد تعاملت مع هذه المهمة من خلال استكشاف هياكل الشبكات، بينما كانت تعلم التمثيلات الفعالة أقل استكشافًا. في هذا العمل، نقترح TalkNCE، وهو خسارة تباينية جديدة واعية للمحادثة. يتم تطبيق الخسارة فقط على جزء من المقاطع الكاملة حيث يكون الشخص على الشاشة فعليًا يتحدث. هذا يشجع النموذج على تعلم التمثيلات الفعالة من خلال التوافق الطبيعي بين الكلام والحركات الوجهية. يمكن تحسين خسارتنا بشكل مشترك مع الأهداف الحالية لتدريب نماذج ASD دون الحاجة إلى إشراف إضافي أو بيانات تدريبية. تظهر التجارب أن خسارتنا يمكن دمجها بسهولة في الإطارات الحالية لـ ASD، مما يحسن أداءها. حققت طريقتنا أفضل الأداء الحالي على مجموعات البيانات AVA-ActiveSpeaker و ASW.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp