قاعدة بيانات خطابات المؤتمرات الصينية متعددة القنوات AISHELL-4
التاريخ
الحجم
رابط النشر
العلامات
الفئات
AISHELL-4 عبارة عن مجموعة بيانات واسعة النطاق من الكلام المندرين الحقيقي المسجل تم جمعها بواسطة مجموعة ميكروفون دائرية مكونة من 8 قنوات لمعالجة الكلام في سيناريوهات المؤتمرات.تتكون مجموعة البيانات من 211 جلسة مؤتمر مسجلة، تحتوي كل منها على 4 إلى 8 متحدثين، بإجمالي مدة 120 ساعة.تهدف مجموعة البيانات هذه إلى الجمع بين الأبحاث المتقدمة وسيناريوهات التطبيق العملي لمعالجة متعددة المتحدثين من ثلاثة جوانب. باستخدام المؤتمرات المسجلة الحقيقية، يوفر AISHELL-4 تأثيرات صوتية واقعية وميزات كلامية طبيعية غنية في المحادثات، مثل التوقفات القصيرة، وتداخل الكلام، والانعطافات السريعة للمتحدث، والضوضاء، وما إلى ذلك. وفي الوقت نفسه، يتم توفير النسخ الدقيق ونشاط صوت المتحدث لكل اجتماع في AISHELL. وهذا يسمح للباحثين باستكشاف جوانب مختلفة من معالجة المؤتمرات، من المهام الفردية مثل معالجة واجهة الكلام، والتعرف على الكلام، وتدوين المتحدث، إلى النمذجة المتعددة الوسائط والتحسين المشترك للمهام ذات الصلة. كما أصدر فريق البحث أيضًا إطار عمل للتدريب والتقييم يعتمد على PyTorch كنظام أساسي لتعزيز البحث القابل للتكرار في هذا المجال.