مجموعة بيانات التعرف على قراءة الشفاه CAS-VSR-W1k
التاريخ
رابط النشر
رابط الورقة البحثية
الترخيص
غير تجاري

CAS-VSR-W1k، المعروف سابقًا باسم LRW-1000، هو أكبر مجموعة بيانات متاحة للعامة لقراءة الشفاه على مستوى مفردات الماندرين. تحتوي مجموعة البيانات على 1000 فئة من الكلمات وتشمل 700000 عينة من أكثر من 2000 متحدث. تحتوي مجموعة البيانات على أكثر من مليون نسخة من الأحرف الصينية.
تتوافق كل فئة مع مقطع لفظي من كلمة ماندرينية تتكون من حرف صيني واحد أو أكثر. تم تصميم مجموعة البيانات لتغطية الاختلافات الطبيعية في طرق الكلام المختلفة وظروف التصوير لتشمل التحديات التي تواجهها التطبيقات في العالم الحقيقي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.