HyperAIHyperAI

مجموعة بيانات التعرف على الكلام والترجمة الأوروبية من Granary

التاريخ

منذ 14 أيام

المؤسسة

إنفيديا

رابط النشر

huggingface.co

مساعدة التنزيل

Granary هي مجموعة بيانات كلامية متعددة اللغات واسعة النطاق أصدرها فريق البحث متعدد المواقع التابع لشركة NVIDIA في عام 2025. نتائج الورقة ذات الصلة هي "المخزن: مجموعة بيانات التعرف على الكلام والترجمة في 25 لغة أوروبية"، والذي يهدف إلى توفير مواد تدريبية وتقييمية عالية الجودة لنماذج التعرف التلقائي على الكلام/التعرف على الكلام متعددة اللغات.

تحتوي هذه المجموعة من البيانات على ما يقارب مليون ساعة من بيانات الكلام عالية الجودة بتقنية التعرف التلقائي على الكلام (ASR) ذات التصنيفات شبه المُصنّفة، والتي تغطي 25 لغة أوروبية (بما في ذلك 23 لغة من لغات الاتحاد الأوروبي، بالإضافة إلى اللغتين الأوكرانية والروسية). تُستمد هذه البيانات من مجموعات كلامية متاحة للعامة، وتُعالَج من خلال عملية موحدة للتصنيفات شبه المُصنّفة وتصفية الجودة.

تشمل اللغات:

البلغارية، التشيكية، الدنماركية، الألمانية، اليونانية، الإنجليزية، الإسبانية، الإستونية، الفنلندية، الفرنسية، الكرواتية، المجرية، الإيطالية، الليتوانية، اللاتفية، المالطية، الهولندية، البولندية، البرتغالية، الرومانية، السلوفاكية، السلوفينية، السويدية، الأوكرانية والروسية.