HyperAIHyperAI
منذ 17 أيام

Europarl-ASR: مجموعة كبيرة من المناقشات البرلمانية لاختبار تقييم ASR في الوقت الفعلي وتصفية بيانات الصوت/إعادة الصياغة الحرفية

{Alfons Juan, Albert Sanchis, Jorge Civera, Alejandro Pérez-González-de-Martos, Nahuel Roselló, Pau Baquero-Arnal, Javier Iranzo-Sánchez, Adrià Giménez Pastor, Javier Jorge, Joan-Albert Silvestre-Cerdà, Gonçal V. Garcés Díaz-Munío}
الملخص

نقدّم "Europarl-ASR"، وهو مجموعة بيانات كبيرة تتضمّن صوتًا ونصًا حول مناقشات برلمانية، تشمل 1300 ساعة من المحاضرات التي تم تحويلها إلى نصوص، و70 مليون كلمة من النصوص باللغة الإنجليزية المستخرجة من جلسات البرلمان الأوروبي. تم وضع علامة على مجموعة التدريب باستخدام النصوص الرسمية غير الكاملة التحويل الحرفي التي تم مزامنتها زمنيًا مع جلسات البرلمان. وبما أن التحويل الحرفي (verbatimness) يُعد أمرًا بالغ الأهمية لتدريب النماذج الصوتية، فقد قدّمنا أيضًا نصوصًا تم تنقية الضوضاء تلقائيًا وتحويلها إلى نصوص حرفيّة تلقائيًا، وذلك باستخدام تقنيات تصفية البيانات الصوتية وتحقيق التحويل الحرفي. بالإضافة إلى ذلك، تم تحويل 18 ساعة من المحاضرات يدويًا إلى نصوص حرفية لبناء مجموعات تطوير واختبار موثوقة تعتمد على المُتحدث (speaker-dependent) ومستقلة عن المُتحدث (speaker-independent) لاختبار أنظمة التحويل الصوتي-النصي في الوقت الفعلي (streaming ASR). تتيح متوفرة النصوص اليدوية غير الحرفيّة والحرفيّة للنصوص المستخدمة في المجموعات التجريبيّة والتطويرية استخدام هذه المجموعة كأداة فعّالة لتقييم التقنيات الآلية لتنقية النصوص وتحقيق التحويل الحرفي. يصف هذا البحث المجموعة وطريقة إنشائها، ويقدّم قواعد معيارية (baselines) للتحويل الصوتي-النصي غير المُباشر (off-line) والتدفقي (streaming) لكل من المهام التي تعتمد على المُتحدث وغير المعتمدة عليه، باستخدام ثلاث مجموعات نصية للتدريب. تم إتاحة هذه المجموعة للجمهور بشكل مفتوح تحت ترخيص مفتوح.

Europarl-ASR: مجموعة كبيرة من المناقشات البرلمانية لاختبار تقييم ASR في الوقت الفعلي وتصفية بيانات الصوت/إعادة الصياغة الحرفية | أحدث الأوراق البحثية | HyperAI