CrowdSpeech و VoxDIY: مجموعات بيانات مرجعية لتدوين الصوت الجماعي

البيانات الخاصة بال مجال هي جوهر نجاح نقل أنظمة التعلم الآلي من المعايير إلى الحياة الحقيقية. في المشكلات البسيطة مثل تصنيف الصور، أصبحت مشاركة الجماهير واحدة من الأدوات القياسية لجمع البيانات بطرق رخيصة وكفؤة من حيث الوقت: بفضل التقدم الكبير في البحث حول طرق التجميع. ومع ذلك، فإن قابلية تطبيق مشاركة الجماهير على المهام الأكثر تعقيدًا (مثل التعرف على الكلام) لا تزال محدودة بسبب عدم وجود طرق تجميع مبدئية لهذه الأشكال. العقبة الرئيسية أمام تصميم طرق التجميع للممارسات المتقدمة هي غياب بيانات التدريب، وفي هذا العمل، نركز على سد هذه الفجوة في مجال التعرف على الكلام. لهذا الغرض، نقوم بجمع وإصدار CrowdSpeech -- أول مجموعة بيانات كبيرة متاحة للجمهور تحتوي على تحويلات صوتية تم الحصول عليها عبر مشاركة الجماهير. تقييم الطرق الموجودة والجديدة للتجميع على بياناتنا يشير إلى وجود مجال للتحسين، مما يقترح أن عملنا قد يؤدي إلى تصميم خوارزميات أفضل. على مستوى أعلى، نساهم أيضًا في التحدي الأكثر عامّة المتمثل في تطوير منهجية لجمع البيانات بشكل موثوق به عبر مشاركة الجماهير. في هذا السياق، نصمم خط أنابيب مبدئيًا لبناء مجموعات بيانات تحويلات صوتية تم الحصول عليها عبر مشاركة الجماهير في أي مجال جديد. نظهر قابلية تطبيقها على لغة ذات موارد قليلة عن طريق بناء VoxDIY -- وهي مجموعة بيانات مشابهة لـ CrowdSpeech ولكن للغة الروسية. كما نصدر الكود الذي يسمح بإعادة إنتاج خط أنابيب جمع البيانات لدينا بالكامل ونشارك العديد من الرؤى حول أفضل الممارسات لجمع البيانات عبر مشاركة الجماهير.