HyperAIHyperAI
منذ 17 أيام

Libri-Light: معيار لتقييم التعرف على الكلام مع مراقبة محدودة أو منعدمة

Jacob Kahn, Morgane Rivière, Weiyi Zheng, Evgeny Kharitonov, Qiantong Xu, Pierre-Emmanuel Mazaré, Julien Karadayi, Vitaliy Liptchinsky, Ronan Collobert, Christian Fuegen, Tatiana Likhomanenko, Gabriel Synnaeve, Armand Joulin, Abdelrahman Mohamed, Emmanuel Dupoux
Libri-Light: معيار لتقييم التعرف على الكلام مع مراقبة محدودة أو منعدمة
الملخص

نقدّم مجموعة جديدة من الصوتيات الإنجليزية المُلقّنة، وهي مناسبة لتدريب أنظمة التعرف على الكلام في ظلّ تدريب محدود أو منعدم للإشراف. تم استخلاص هذه المجموعة من كتب صوتية مفتوحة المصدر من مشروع LibriVox. وتشمل أكثر من 60 ألف ساعة من الصوت، وهي، إلى حدّ معرفتنا، أكبر مجموعة متاحة مجانًا من بيانات الكلام. تم تقسيم الصوتيات باستخدام تقنية كشف النشاط الصوتي (Voice Activity Detection)، وتم تسميتها ببيانات متعلقة بعوامل مثل نسبة الإشارة إلى الضوضاء (SNR)، ومعرّف المتكلم (Speaker ID)، وتصنيف النوع (Genre). بالإضافة إلى ذلك، نقدّم أنظمة أساسية ومقاييس تقييم تعمل في ثلاث بيئات: (1) البيئة الصفرية/غير المشرفة (ABX)، (2) البيئة شبه المشرفة (PER، CER)، و(3) البيئة ذات الإشراف البعيد (WER). وتستخدم البيئتان (2) و(3) موارد نصية محدودة (من 10 دقائق إلى 10 ساعات) مُحاذاة مع الصوت، بينما تستخدم البيئة (3) كميات كبيرة من النصوص غير المُحاذاة. وتم تقييم هذه الأنظمة على مجموعات التقييم القياسية من LibriSpeech (dev وtest) للمقارنة مع أحدث الأنظمة المُشرفة.

Libri-Light: معيار لتقييم التعرف على الكلام مع مراقبة محدودة أو منعدمة | أحدث الأوراق البحثية | HyperAI