Command Palette
Search for a command to run...
قاعدة بيانات خطابات المؤتمرات الصينية متعددة القنوات AISHELL-4
التاريخ
الحجم
عنوان URL للنشر
AISHELL-4 عبارة عن مجموعة بيانات واسعة النطاق من الكلام المندرين الحقيقي المسجل تم جمعها بواسطة مجموعة ميكروفون دائرية مكونة من 8 قنوات لمعالجة الكلام في سيناريوهات المؤتمرات.تتكون مجموعة البيانات من 211 جلسة مؤتمر مسجلة، تحتوي كل منها على 4 إلى 8 متحدثين، بإجمالي مدة 120 ساعة.تهدف مجموعة البيانات هذه إلى الجمع بين الأبحاث المتقدمة وسيناريوهات التطبيق العملي لمعالجة متعددة المتحدثين من ثلاثة جوانب. باستخدام المؤتمرات المسجلة الحقيقية، يوفر AISHELL-4 تأثيرات صوتية واقعية وميزات كلامية طبيعية غنية في المحادثات، مثل التوقفات القصيرة، وتداخل الكلام، والانعطافات السريعة للمتحدث، والضوضاء، وما إلى ذلك. وفي الوقت نفسه، يتم توفير النسخ الدقيق ونشاط صوت المتحدث لكل اجتماع في AISHELL. وهذا يسمح للباحثين باستكشاف جوانب مختلفة من معالجة المؤتمرات، من المهام الفردية مثل معالجة واجهة الكلام، والتعرف على الكلام، وتدوين المتحدث، إلى النمذجة المتعددة الوسائط والتحسين المشترك للمهام ذات الصلة. كما أصدر فريق البحث أيضًا إطار عمل للتدريب والتقييم يعتمد على PyTorch كنظام أساسي لتعزيز البحث القابل للتكرار في هذا المجال.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.