HyperAIHyperAI

Command Palette

Search for a command to run...

CrowdSpeech و VoxDIY: مجموعات بيانات مرجعية لتدوين الصوت الجماعي

Nikita Pavlichenko Ivan Stelmakh Dmitry Ustalov

الملخص

البيانات الخاصة بال مجال هي جوهر نجاح نقل أنظمة التعلم الآلي من المعايير إلى الحياة الحقيقية. في المشكلات البسيطة مثل تصنيف الصور، أصبحت مشاركة الجماهير واحدة من الأدوات القياسية لجمع البيانات بطرق رخيصة وكفؤة من حيث الوقت: بفضل التقدم الكبير في البحث حول طرق التجميع. ومع ذلك، فإن قابلية تطبيق مشاركة الجماهير على المهام الأكثر تعقيدًا (مثل التعرف على الكلام) لا تزال محدودة بسبب عدم وجود طرق تجميع مبدئية لهذه الأشكال. العقبة الرئيسية أمام تصميم طرق التجميع للممارسات المتقدمة هي غياب بيانات التدريب، وفي هذا العمل، نركز على سد هذه الفجوة في مجال التعرف على الكلام. لهذا الغرض، نقوم بجمع وإصدار CrowdSpeech -- أول مجموعة بيانات كبيرة متاحة للجمهور تحتوي على تحويلات صوتية تم الحصول عليها عبر مشاركة الجماهير. تقييم الطرق الموجودة والجديدة للتجميع على بياناتنا يشير إلى وجود مجال للتحسين، مما يقترح أن عملنا قد يؤدي إلى تصميم خوارزميات أفضل. على مستوى أعلى، نساهم أيضًا في التحدي الأكثر عامّة المتمثل في تطوير منهجية لجمع البيانات بشكل موثوق به عبر مشاركة الجماهير. في هذا السياق، نصمم خط أنابيب مبدئيًا لبناء مجموعات بيانات تحويلات صوتية تم الحصول عليها عبر مشاركة الجماهير في أي مجال جديد. نظهر قابلية تطبيقها على لغة ذات موارد قليلة عن طريق بناء VoxDIY -- وهي مجموعة بيانات مشابهة لـ CrowdSpeech ولكن للغة الروسية. كما نصدر الكود الذي يسمح بإعادة إنتاج خط أنابيب جمع البيانات لدينا بالكامل ونشارك العديد من الرؤى حول أفضل الممارسات لجمع البيانات عبر مشاركة الجماهير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp