NVIDIA تطلق مجموعة بيانات وموديلات مفتوحة لدعم الذكاء الاصطناعي الصوتي متعدد اللغات
نVIDIA تطلق مجموعة بيانات وموديلات مفتوحة لتعزيز الذكاء الاصطناعي الصوتي متعدد اللغات، وذلك في خطوة تهدف إلى تقليل الفجوة في دعم اللغات الأقل شيوعًا. من أصل نحو 7000 لغة في العالم، يُدعم جزء ضئيل منها بالذكاء الاصطناعي، ما يعرقل تطوير تطبيقات صوتية عالمية فعّالة. لمعالجة هذه التحديات، أعلنت نVIDIA عن إطلاق مجموعة بيانات مفتوحة تُسمى "Granary"، إلى جانب موديلين جديدين: "Canary-1b-v2" و"Parakeet-tdt-0.6b-v3"، لدعم تقنية التعرف على الكلام والترجمة الصوتية في 25 لغة أوروبية، بما في ذلك لغات نادرة مثل الكرواتية والإستونية والمالطية. تُعدّ هذه الأدوات خطوة مهمة نحو تطوير تطبيقات ذكاء اصطناعي صوتي دقيق وسريع، مناسبة للاستخدام في بيئات إنتاجية مثل الدردشة متعددة اللغات، وكلاء الخدمة الصوتية، وخدمات الترجمة الفورية. وتم تقديم الدراسة التي تُفسّر مفهوم Granary في مؤتمر Interspeech المُقام في هولندا في الفترة من 17 إلى 21 أغسطس، بينما أصبحت المجموعة والنموذجان متاحين الآن على منصة Hugging Face. تم بناء Granary بالتعاون بين فريق الذكاء الاصطناعي الصوتي في نVIDIA وباحثين من جامعة كارنيغي ميلون ومؤسسة برونو كيسلر. استخدم الفريق أداة "NVIDIA NeMo Speech Data Processor" في معالجة صوتيات غير مُعلّقة، وتحويلها إلى بيانات منظمة عالية الجودة، دون الحاجة إلى التسمية البشرية المكلفة. هذه العملية، التي تم إتاحتها مفتوحة المصدر على GitHub، تُمكّن المطورين من تحسين البيانات العامة وتحويلها إلى صيغة مناسبة لتدريب النماذج. تُظهر الدراسة أن Granary تُقلل من كمية البيانات المطلوبة لتحقيق دقة معينة في التعرف على الكلام (ASR) والترجمة الصوتية (AST) بنسبة تصل إلى 50% مقارنةً بال datasets الشهيرة الأخرى. وهذا يُعدّ دعماً حاسماً للغات الأوروبية التي تعاني من نقص في البيانات المُعلّقة، مما يُعزز تنوع التكنولوجيا الصوتية ويُقربها من التمثيل الحقيقي للغات في القارة. من جهته، يُقدّم نموذج "Canary-1b-v2" دقة عالية في المهام المعقدة، مع دعم لـ 25 لغة (بزيادة من 4 لغات سابقة)، ويُحقق جودة مماثلة لنماذج أكبر بثلاث مرات، مع تسريع في عملية التنبؤ يصل إلى 10 أضعاف. أما "Parakeet-tdt-0.6b-v3"، فيُركّز على السرعة والكفاءة، حيث يمكنه معالجة تسجيلات صوتية بطول 24 دقيقة في عملية واحدة، ويُحدد لغة المدخل تلقائيًا دون الحاجة إلى إشارات إضافية. كلا النموذجين يُخرجان نتائج دقيقة تشمل الترقيم، وتحديد الأحرف الكبيرة، وتوقيت الكلمات بدقة. وتم دعم تطوير هذه النماذج باستخدام منصة نVIDIA NeMo، حيث ساهمت أدوات مثل NeMo Curator في استبعاد العينات الصناعية، وضمان جودة البيانات، بينما ساعدت أدوات معالجة البيانات في توحيد الصيغ وربط النصوص بالتسجيلات الصوتية. بمشاركة هذه المنهجية والبيانات، تفتح نVIDIA الباب أمام المطورين حول العالم لتطبيق هذه الأدوات على لغات أخرى أو تكييفها لتطبيقات مخصصة، مما يُسرّع من وتيرة الابتكار في مجال الذكاء الاصطناعي الصوتي. يمكن الاطلاع على التفاصيل والبدء باستخدام Granary من خلال منصتي GitHub وHugging Face.