منذ 7 أشهر

الملخص

نقترح معمارية تعلم عميقة من النهاية إلى النهاية للاعتراف بالكلمات على مستوى الكلمة من خلال الكلام المرئي. يتكون النظام من مزيج من شبكات التوافقي الزماني والمكاني، والشبكات الباقية، والشبكات ثنائية الاتجاه للذاكرة طويلة المدى قصيرة المدى (Long Short-Term Memory). نقوم بتدريبه وتقييمه على مقاييس Lipreading In-The-Wild، وهو قاعدة بيانات صعبة تحتوي على 500 كلمة هدف تتكون من مقاطع فيديو مدتها 1.28 ثانية مستخرجة من بثّات تلفزيون بي بي سي. يحقق الشبكة المقترحة دقة الكلمات تبلغ 83.0٪، مما يوفر تحسينًا مطلقًا بنسبة 6.8٪ على أحدث ما وصلت إليه التقنيات الحالية، دون استخدام معلومات حول حدود الكلمات أثناء التدريب أو الاختبار.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار