HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم التمثيلي الصوتي البصري من خلال التعلم من النماذج الأساسية للصوت عبر التحويل المعرفي

Jing-Xuan Zhang Genshun Wan Jianqing Gao Zhen-Hua Ling

الملخص

إن تعلّم التمثيل الصوتي البصري يُعدّ أمرًا بالغ الأهمية لتطوير مهام معالجة الكلام متعددة الوسائط، مثل قراءة الشفاه وتمييز الكلام الصوتي البصري. في الآونة الأخيرة، أظهرت نماذج الأساس الصوتي (SFM) قدرات تعميم ملحوظة عبر مهام متعددة مرتبطة بالكلام. مستندين إلى هذا التقدم، نقترح نموذجًا لتعلّم التمثيل الصوتي البصري يستفيد من عملية تدريس المعرفة عبر الوسائط من نماذج الأساس الصوتي. في طريقة العمل هذه، تُستخدم نماذج الأساس الصوتي كمعلّمين، حيث يتم استخراج تمثيلات خفية متعددة الطبقات باستخدام إدخالات صوتية نظيفة. كما نقدّم أيضًا طريقة تجميع متعددة المعلّمين لتدريب الطالب، الذي يتلقى بيانات صوتية وبصرية كمدخلات. وتُستخدم خسارة جديدة لتدريس المعرفة التمثيلية لتدريب الطالب أثناء التدريب المسبق، وتُطبَّق هذه الخسارة أيضًا أثناء التخصيص الدقيق لتحسين الأداء في المهام اللاحقة. وقد استخدمت تجاربنا نموذجًا ذاتي التعلّم من أساس الصوتي، وهو WavLM، بالإضافة إلى نموذج مُعلّم من أساس الصوتي، وهو iFLYTEK-speech. أظهرت النتائج أن الطريقة المقترحة حققت أداءً متفوقًا أو على الأقل مماثلًا لأفضل النماذج السابقة في مهام التعرف التلقائي على الكلام، وتمييز الكلام البصري، والتعرف على الكلام الصوتي البصري. علاوة على ذلك، تم إجراء دراسات تحليلية شاملة، وتمت معاينة التمثيلات المُتعلّمة لتقييم فعالية الطريقة المقترحة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم التمثيلي الصوتي البصري من خلال التعلم من النماذج الأساسية للصوت عبر التحويل المعرفي | مستندات | HyperAI