منذ 6 أشهر

الملخص

إن تعلّم التمثيل الصوتي البصري يُعدّ أمرًا بالغ الأهمية لتطوير مهام معالجة الكلام متعددة الوسائط، مثل قراءة الشفاه وتمييز الكلام الصوتي البصري. في الآونة الأخيرة، أظهرت نماذج الأساس الصوتي (SFM) قدرات تعميم ملحوظة عبر مهام متعددة مرتبطة بالكلام. مستندين إلى هذا التقدم، نقترح نموذجًا لتعلّم التمثيل الصوتي البصري يستفيد من عملية تدريس المعرفة عبر الوسائط من نماذج الأساس الصوتي. في طريقة العمل هذه، تُستخدم نماذج الأساس الصوتي كمعلّمين، حيث يتم استخراج تمثيلات خفية متعددة الطبقات باستخدام إدخالات صوتية نظيفة. كما نقدّم أيضًا طريقة تجميع متعددة المعلّمين لتدريب الطالب، الذي يتلقى بيانات صوتية وبصرية كمدخلات. وتُستخدم خسارة جديدة لتدريس المعرفة التمثيلية لتدريب الطالب أثناء التدريب المسبق، وتُطبَّق هذه الخسارة أيضًا أثناء التخصيص الدقيق لتحسين الأداء في المهام اللاحقة. وقد استخدمت تجاربنا نموذجًا ذاتي التعلّم من أساس الصوتي، وهو WavLM، بالإضافة إلى نموذج مُعلّم من أساس الصوتي، وهو iFLYTEK-speech. أظهرت النتائج أن الطريقة المقترحة حققت أداءً متفوقًا أو على الأقل مماثلًا لأفضل النماذج السابقة في مهام التعرف التلقائي على الكلام، وتمييز الكلام البصري، والتعرف على الكلام الصوتي البصري. علاوة على ذلك، تم إجراء دراسات تحليلية شاملة، وتمت معاينة التمثيلات المُتعلّمة لتقييم فعالية الطريقة المقترحة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Jing-Xuan Zhang Genshun Wan Jianqing Gao Zhen-Hua Ling

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jing-Xuan Zhang Genshun Wan Jianqing Gao Zhen-Hua Ling

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jing-Xuan Zhang Genshun Wan Jianqing Gao Zhen-Hua Ling

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعلم التمثيلي الصوتي البصري من خلال التعلم من النماذج الأساسية للصوت عبر التحويل المعرفي

Jing-Xuan Zhang Genshun Wan Jianqing Gao Zhen-Hua Ling

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعلم التمثيلي الصوتي البصري من خلال التعلم من النماذج الأساسية للصوت عبر التحويل المعرفي

Jing-Xuan Zhang Genshun Wan Jianqing Gao Zhen-Hua Ling

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعلم التمثيلي الصوتي البصري من خلال التعلم من النماذج الأساسية للصوت عبر التحويل المعرفي

Jing-Xuan Zhang Genshun Wan Jianqing Gao Zhen-Hua Ling

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters