HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين الترجمة النصية إلى الصوت متعددة اللغات مع اللهجات والعواطف

Pawar Pranav Dwivedi Akshansh Boricha Jenish Gohil Himanshu Dubey Aditya

الملخص

أنظمة النص إلى الكلام (TTS) الأكثر تقدماً تحقق درجة عالية من الطبيعية في البيئات الأحادية اللغة، ولكن إنتاج الكلام بلهجات متعددة اللغات صحيحة (خاصة للغات الهندية) والعواطف المناسبة للسياق لا يزال يشكل تحدياً بسبب الاختلافات الدقيقة الثقافية في الإطارات الحالية. يقدم هذا البحث معمارية جديدة لأنظمة النص إلى الكلام تدمج فيها اللهجات مع الحفاظ على الترقيم الصوتي باستخدام نموذج مشفر-مفكك هجين خاص باللغة وطبقات تمثيل العواطف الحساسة للثقافة التي تم تدريبها على مجموعات بيانات المتحدثين الأصليين، بالإضافة إلى دمج التبديل الديناميكي للكود الصوتي مع كمّة المتجه المتبقية. أظهرت الاختبارات الكمية تحسناً بنسبة 23.7% في دقة اللهجات (انخفاض معدل الخطأ الكلمي من 15.4% إلى 11.8%) ودقة اعتراف العواطف بنسبة 85.3% من قبل المستمعين الأصليين، مما يتفوق على خطوط الأساس METTS و VECL-TTS. يتميز النظام الجديد بقدرته على مزج الكود في الوقت الفعلي - مثل إنتاج عبارات مثل "ناماستي، دعونا نتحدث عن <عبارة باللغة الهندية>" مع تحولات لهجية مستمرة مع الحفاظ على الاستقرار العاطفي. أفادت التقييمات الذاتية التي أجريت مع 200 مستخدم أن المتوسط ​​الرأي هو 4.2/5 لصحة الثقافة، وهو أفضل بكثير من الأنظمة متعددة اللغات الموجودة حالياً (p<0.01). يسهل هذا البحث تحقيق التركيب بين اللغات بشكل أكبر من خلال عرض فصل قابل للتوسع بين اللهجات والعواطف، مع وجود تطبيقات مباشرة في برامج التعليم التكنولوجي وبرامج الوصول في جنوب آسيا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp