نVIDIA تطلق نماذج Riva TTS المتقدمة لتعزيز تركيب الصوت والكلام بتكنولوجيا متعددة اللغات وأداء فائق في الوقت الفعلي
تحسين الكلام الشبيه بالإنسان متعدد اللغات وتكرار الصوت باستخدام NVIDIA Riva TTS يعد الذكاء الاصطناعي للكلام (speech AI) أحد التقنيات التي تتجاوز نطاق استخدامها في بناء المساعدات الرقمية والوكلاء الصوتية ليؤثر بشكل كبير في مختلف الصناعات. تقنيات أساسية مثل تحويل النص إلى كلام (TTS) والتعرف التلقائي على الكلام (ASR) وترجمة الآلة العصبية (NMT) تقود الابتكار في مجالات مثل الترجمة الفورية، التفاعل مع البشر الرقميين، وحتى إعادة إنتاج الكلام للأفراد الذين فقدوا أصواتهم. كلما نضجت هذه القدرات، كلما غيرت بشكل جذري كيفية التواصل والتعلم والاتصال بين الناس. NVIDIA Riva: مجموعة خدمات مصغرة متعددة اللغات تعد NVIDIA Riva مجموعة من الخدمات المصغرة متعددة اللغات المصممة لبناء أنابيب الذكاء الاصطناعي للكلام في الوقت الفعلي. تقدم Riva دقة عالية في تطبيقات TTS وASR وNMT، وهي تعمل عبر البنية الأساسية الخاصة، السحابة، الحواف، والأجهزة المدمجة. مقدمة إلى نماذج TTS الجديدة من NVIDIA في هذا المقال، سنستعرض ثلاثة نماذج جديدة لـ Riva TTS من NVIDIA والتي تسهم بشكل كبير في تحسين تحويل النص إلى كلام: Magpie TTS Multilingual: الهندسة: يستخدم هذا النموذج هندسة محوّل المُشفِّر-المُفكِّك (encoder-decoder transformer) لتطبيقات البث الفوري. تطبيقات: مناسب لوكالات الذكاء الاصطناعي الصوتية، البشر الرقمية، الاستجابة الصوتية التفاعلية متعددة اللغات (IVR)، وكتب الصوت. اللغات المدعومة: الإنجليزية، الإسبانية، الفرنسية، الألمانية. التفاصيل الفنية: يتميز بتأخير منخفض (<200 ملisecond) عند استخدام NVIDIA Dynamo-Triton، مع تحسينات في التوافق مع النص باستخدام إطار العمل التفضيلي (preference alignment framework) والتحكم الخالي من المصنف (classifier-free guidance). Magpie TTS Zeroshot: الهندسة: يستخدم أيضًا هندسة محوّل المُشفِّر-المُفكِّك لتطبيقات البث الفوري. تطبيقات: مثالي للهاتف الحي، شخصيات اللعبة غير القابلة للعب (NPCs). اللغات المدعومة: الإنجليزية فقط. التفاصيل الفنية: يتميز أيضًا بتأخير منخفض (<200 ملisecond)، ويتيح تكرار الصوت باستخدام عينة صوتية تبلغ مدتها خمس ثوانٍ فقط. Magpie TTS Flow: الهندسة: يُقدم هذا النموذج إطار عمل مسبق التدريب يعتمد على وحدات الكلام المنفصلة (HuBERT) ويدمجها في إطار عمل التدريب غير التتابعي (E2 TTS) لتعلم توافق النص-الكلام. تطبيقات: مناسب لدوبلاج الاستوديو، رواية البودكاست. اللغات المدعومة: الإنجليزية فقط. التفاصيل الفنية: يتعلم النموذج التوافق بين النص والكلام بشكل فعال حتى مع بيانات محدودة، مما يجعله نظام TTS متعدد اللغات قويًا. يمكنه تحقيق دقة نطق عالية (WER منخفض) وتشابه كبير في الصوت (SECS-O) بمجرد استخدام عينة صوتية تبلغ مدتها ثلاث ثوانٍ فقط. فوائد النماذج الجديدة مقارنةً بالنماذج المفتوحة المصدر الأخرى، النماذج الجديدة من NVIDIA تحقق أقل معدل خطأ في الحروف (CER) وأقل معدل خطأ في الكلمات (WER)، رغم أنها تم تدريبها على بيانات أقل بكثير. كما حصلت على أعلى درجات في التقييم البشري لطبيعتها (MOS) وتشابه المتحدث (SMOS). تقييم الحدث من قبل المختصين يرى الخبراء في مجال الذكاء الاصطناعي أن هذه النماذج تمثل تقدمًا كبيرًا في تقنية تحويل النص إلى كلام. فهي تقدم حلولاً مبتكرة لمشكلات مثل تكرار الحروف والكلمات، وتنتج صوتًا طبيعيًا وعالي الدقة. بالإضافة إلى ذلك، فإن تعلم التوافق بين النص والكلام في Magpie TTS Flow يسهم في تحسين تكرار الصوت حتى مع بيانات محدودة، مما يجعلها مثالية للتطبيقات متعددة اللغات. التعاون في مجال الأمان ضمن مبادرة NVIDIA للذكاء الاصطناعي الموثوق به، تركز الشركة على التقدم الآمن والمسؤول للذكاء الاصطناعي للكلام. تتعاون NVIDIA مع شركات رائدة في مجال اكتشاف الديبفاك والكشف عن الصوت، مثل Pindrop، لتوفير الوصول المبكر إلى نماذج مثل Riva Magpie TTS Zeroshot. تُستخدم تقنية Pindrop في مجموعة واسعة من الصناعات، بما في ذلك البنوك والخدمات المالية، ومراكز الاتصال الكبيرة، والتجزئة، والمرافق، والتأمين، لتوفير التوثيق الصوتي الفوري واكتشاف الديبفاك للحماية ضد الاحتيال والتقمص في التفاعلات الحرجة. يحدد هذا التعاون معايير مهمة لنشر الكلام الصناعي الآمن ويعالج المخاطر الحرجة في مجالات مثل مراكز الاتصال وسلامة الوسائط. بدء العمل مع NVIDIA Riva Magpie TTS تضع نماذج NVIDIA Riva Magpie TTS معايير جديدة في مجال توليد الكلام الشبيه بالإنسان بشكل فوري ومرن. بفضل قدراتها المتعددة اللغات، وتكرار الصوت الفوري، وإطار العمل التفضيلي المتقدم، تنتج هذه النماذج صوتًا تعبريفيًا ودقيقًا وطبيعيًا للغاية يتكيف مع المتحدث والمحتوى. مع هندسة مرنة وأداء قوي، تظهر هذه النماذج دقة كلمية منخفضة في العديد من اللغات، مما يجعلها نماذج مثالية للرعاية الصحية، والقابلية للوصول، وأي تطبيق يتطلب تفاعل صوتي حقيقي شبيه بالإنسان. يمكن للمطورين بدء العمل بهذه النماذج بسهولة للحصول على تجارب صوتية غامرة ومثلى. نبذة تعريفية عن NVIDIA NVIDIA هي شركة رائدة في مجال تكنولوجيا الذكاء الاصطناعي والحوسبة العصبية. تقدم NVIDIA حلولًا مبتكرة تهدف إلى تحسين القدرات التقنية في مجالات متنوعة، بدءًا من الرسوميات الحاسوبية وصولًا إلى تطبيقات الذكاء الاصطناعي المتقدمة مثل NVIDIA Riva. تعزز الشركة بشكل مستمر التقدم في تكنولوجيا الذكاء الاصطناعي من خلال البحث والتطوير الدائمين، وتسعى دائمًا إلى تحقيق التقدم الآمن والمسؤول في استخدام هذه التقنيات.