HyperAIHyperAI
منذ 17 أيام

VOXLINGUA107: مجموعة بيانات لتمييز اللغة المنطوقة

{Tanel Alumae, Jorgen Valk}
الملخص

تُجري هذه الورقة دراسة حول استخدام البيانات الصوتية المُجمعة تلقائيًا من الويب لمهام تمييز اللغة المنطوقة. نُنشئ عبارات بحث شبه عشوائية من بيانات ويكيبيديا الخاصة باللغات، والتي تُستخدم بعدها لاسترجاع مقاطع فيديو من يوتيوب لـ 107 لغات. ويُستخدم كشف النشاط الصوتي والتمييز الصوتي (Speaker Diarization) لاستخراج الأجزاء من الفيديوهات التي تحتوي على كلام. ويُطبَّق تصفية ما بعد الاستخراج لإزالة الأجزاء التي من المرجح ألا تكون باللغة المحددة، مما يرفع نسبة الأجزاء المُعلَّمة بشكل صحيح إلى 98%، بناءً على التحقق من قبل مُستخدمين عبر الإنترنت. يبلغ حجم مجموعة التدريب الناتجة (VoxLingua107) 6628 ساعة (متوسط 62 ساعة لكل لغة)، ويُرفق بها مجموعة تقييم مكوَّنة من 1609 جملة مُحقَّقة. نستخدم هذه البيانات لبناء نماذج تمييز اللغة لعدد من مهام تحديد اللغة المنطوقة. تُظهر التجارب أن استخدام بيانات التدريب المستخرجة تلقائيًا يُعطي نتائج تنافسية مقارنة باستخدام مجموعات بيانات مُعلَّمة يدويًا ومقيدة بملكية خاصة. وتُتاح هذه المجموعة للجمهور بشكل عام.