HyperAIHyperAI
منذ 3 أيام

مختبر الحبوب: مجموعة بيانات للإعراب الصوتي والترجمة بلغات أوروبية 25

Nithin Rao Koluguri, Monica Sekoyan, George Zelenfroynd, Sasha Meister, Shuoyang Ding, et al
مختبر الحبوب: مجموعة بيانات للإعراب الصوتي والترجمة بلغات أوروبية 25
الملخص

تُعد النُهج المتعددة المهام والمتعددة اللغات مفيدةً للنماذج الكبيرة، ومع ذلك تظل معالجة الصوت للغات ذات الموارد المحدودة غير مُستكشفة بشكل كافٍ بسبب نقص البيانات. وللتعامل مع هذه المشكلة، نقدم "Granary"، وهي مجموعة ضخمة من مجموعات بيانات الصوت مخصصة للتعرف على الصوت والترجمة عبر 25 لغة أوروبية. هذه أول مبادرة مفتوحة المصدر على هذا الحجم بالنسبة لكلا المهام: الترجمة والكتابة الصوتية. ونُحسّن جودة البيانات باستخدام نموذج تسمية افتراضية (pseudo-labeling) يعتمد على تقسيم الصوت، واستنتاج مزدوج (two-pass inference)، وتصفية التخيلات (hallucination filtering)، وإعادة تعيين العلامات النقطية (punctuation restoration). كما نُنتج أزواج الترجمة من النصوص المُسمّاة افتراضيًا باستخدام نموذج EuroLLM، تليها خطوة تصفية البيانات. صُمّمت هذه العملية لتحقيق الكفاءة، حيث تُعالج كميات ضخمة من البيانات خلال ساعات قليلة. وقمنا بتقييم النماذج المدربة على البيانات المعالجة من خلال مقارنة أدائها على مجموعات بيانات مُعدّة سابقًا، سواء للغات عالية الموارد أو منخفضة الموارد. وأظهرت نتائجنا أن هذه النماذج تحقق أداءً مشابهًا باستخدام ما يقارب 50٪ من البيانات فقط. وسيتم إتاحة مجموعة البيانات عبر الرابط التالي: https://url