HyperAIHyperAI
منذ 17 أيام

VoxPopuli: مجموعة بيانات صوتية متعددة اللغات على نطاق واسع لتعلم التمثيل، والتعلم شبه المراقب، والتأويل

Changhan Wang, Morgane Rivière, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux
VoxPopuli: مجموعة بيانات صوتية متعددة اللغات على نطاق واسع لتعلم التمثيل، والتعلم شبه المراقب، والتأويل
الملخص

نقدم "VoxPopuli"، وهو مجموعة بيانات كبيرة متعددة اللغات تُقدّم 100 ألف ساعة من بيانات الصوت غير المُعلَّمة بلغات 23 لغة. وهي أكبر مجموعة بيانات مفتوحة حتى الآن لتعلم التمثيل غير المُراقب وللتعلم شبه المُراقب. كما تحتوي "VoxPopuli" على 1.8 ألف ساعة من التسجيلات الصوتية المُحوَّلة إلى نصوص بلغات 16 لغة، بالإضافة إلى تفسيراتها الشفهية المُتماشية بلغات 5 لغات أخرى، بمجمل 5.1 ألف ساعة. نقدّم قواعد مرجعية للاعتراف بالصوت، ونختبر مرونة بيانات "VoxPopuli" غير المُعلَّمة في سياقات التعلم شبه المُراقب تحت ظروف صعبة خارج نطاق البيانات المستهدفة. وسوف نُطلق المجموعة على منصة GitHub عبر الرابط التالي: https://github.com/facebookresearch/voxpopuli، بترخيص مفتوح.

VoxPopuli: مجموعة بيانات صوتية متعددة اللغات على نطاق واسع لتعلم التمثيل، والتعلم شبه المراقب، والتأويل | أحدث الأوراق البحثية | HyperAI