منذ 7 أشهر

الملخص

تُجري هذه الورقة دراسة حول استخدام البيانات الصوتية المُجمعة تلقائيًا من الويب لمهام تمييز اللغة المنطوقة. نُنشئ عبارات بحث شبه عشوائية من بيانات ويكيبيديا الخاصة باللغات، والتي تُستخدم بعدها لاسترجاع مقاطع فيديو من يوتيوب لـ 107 لغات. ويُستخدم كشف النشاط الصوتي والتمييز الصوتي (Speaker Diarization) لاستخراج الأجزاء من الفيديوهات التي تحتوي على كلام. ويُطبَّق تصفية ما بعد الاستخراج لإزالة الأجزاء التي من المرجح ألا تكون باللغة المحددة، مما يرفع نسبة الأجزاء المُعلَّمة بشكل صحيح إلى 98%، بناءً على التحقق من قبل مُستخدمين عبر الإنترنت. يبلغ حجم مجموعة التدريب الناتجة (VoxLingua107) 6628 ساعة (متوسط 62 ساعة لكل لغة)، ويُرفق بها مجموعة تقييم مكوَّنة من 1609 جملة مُحقَّقة. نستخدم هذه البيانات لبناء نماذج تمييز اللغة لعدد من مهام تحديد اللغة المنطوقة. تُظهر التجارب أن استخدام بيانات التدريب المستخرجة تلقائيًا يُعطي نتائج تنافسية مقارنة باستخدام مجموعات بيانات مُعلَّمة يدويًا ومقيدة بملكية خاصة. وتُتاح هذه المجموعة للجمهور بشكل عام.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار