HyperAIHyperAI

Command Palette

Search for a command to run...

VOXLINGUA107: مجموعة بيانات لتمييز اللغة المنطوقة

Tanel Alumae Jorgen Valk

الملخص

تُجري هذه الورقة دراسة حول استخدام البيانات الصوتية المُجمعة تلقائيًا من الويب لمهام تمييز اللغة المنطوقة. نُنشئ عبارات بحث شبه عشوائية من بيانات ويكيبيديا الخاصة باللغات، والتي تُستخدم بعدها لاسترجاع مقاطع فيديو من يوتيوب لـ 107 لغات. ويُستخدم كشف النشاط الصوتي والتمييز الصوتي (Speaker Diarization) لاستخراج الأجزاء من الفيديوهات التي تحتوي على كلام. ويُطبَّق تصفية ما بعد الاستخراج لإزالة الأجزاء التي من المرجح ألا تكون باللغة المحددة، مما يرفع نسبة الأجزاء المُعلَّمة بشكل صحيح إلى 98%، بناءً على التحقق من قبل مُستخدمين عبر الإنترنت. يبلغ حجم مجموعة التدريب الناتجة (VoxLingua107) 6628 ساعة (متوسط 62 ساعة لكل لغة)، ويُرفق بها مجموعة تقييم مكوَّنة من 1609 جملة مُحقَّقة. نستخدم هذه البيانات لبناء نماذج تمييز اللغة لعدد من مهام تحديد اللغة المنطوقة. تُظهر التجارب أن استخدام بيانات التدريب المستخرجة تلقائيًا يُعطي نتائج تنافسية مقارنة باستخدام مجموعات بيانات مُعلَّمة يدويًا ومقيدة بملكية خاصة. وتُتاح هذه المجموعة للجمهور بشكل عام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VOXLINGUA107: مجموعة بيانات لتمييز اللغة المنطوقة | مستندات | HyperAI