تحسين الترجمة النصية إلى الصوت متعددة اللغات مع اللهجات والعواطف

أنظمة النص إلى الكلام (TTS) الأكثر تقدماً تحقق درجة عالية من الطبيعية في البيئات الأحادية اللغة، ولكن إنتاج الكلام بلهجات متعددة اللغات صحيحة (خاصة للغات الهندية) والعواطف المناسبة للسياق لا يزال يشكل تحدياً بسبب الاختلافات الدقيقة الثقافية في الإطارات الحالية. يقدم هذا البحث معمارية جديدة لأنظمة النص إلى الكلام تدمج فيها اللهجات مع الحفاظ على الترقيم الصوتي باستخدام نموذج مشفر-مفكك هجين خاص باللغة وطبقات تمثيل العواطف الحساسة للثقافة التي تم تدريبها على مجموعات بيانات المتحدثين الأصليين، بالإضافة إلى دمج التبديل الديناميكي للكود الصوتي مع كمّة المتجه المتبقية. أظهرت الاختبارات الكمية تحسناً بنسبة 23.7% في دقة اللهجات (انخفاض معدل الخطأ الكلمي من 15.4% إلى 11.8%) ودقة اعتراف العواطف بنسبة 85.3% من قبل المستمعين الأصليين، مما يتفوق على خطوط الأساس METTS و VECL-TTS. يتميز النظام الجديد بقدرته على مزج الكود في الوقت الفعلي - مثل إنتاج عبارات مثل "ناماستي، دعونا نتحدث عن <عبارة باللغة الهندية>" مع تحولات لهجية مستمرة مع الحفاظ على الاستقرار العاطفي. أفادت التقييمات الذاتية التي أجريت مع 200 مستخدم أن المتوسط الرأي هو 4.2/5 لصحة الثقافة، وهو أفضل بكثير من الأنظمة متعددة اللغات الموجودة حالياً (p<0.01). يسهل هذا البحث تحقيق التركيب بين اللغات بشكل أكبر من خلال عرض فصل قابل للتوسع بين اللهجات والعواطف، مع وجود تطبيقات مباشرة في برامج التعليم التكنولوجي وبرامج الوصول في جنوب آسيا.