منذ 6 أشهر

الملخص

تمثّل اعترافات الكلام البصري أو القراءة التلقائية للشفاه مجالًا يشهد اهتمامًا متزايدًا. وقد أثبتت بيانات الفيديو فعاليتها في التعرف على الكلام متعدد الوسائط، خاصةً عندما تكون البيانات الصوتية ملوثة بشدة أو غير متوفرة على الإطلاق. في هذا البحث، نقدّم طريقة جديدة للتعرف على الكلام البصري. وقد قمنا بتجريبها على مجموعة بيانات LRW الشهيرة الخاصة بقراءة الشفاه، حيث تفوقت على الطرق الحالية. وبعد تقييم شامل، قمنا بتعديل الطريقة المطورة واختبارها على مجموعة بيانات RUSAVIC التي جمعناها في البيئة الطبيعية (in-the-wild) لسائقي المركبات. وأظهرت النتائج التي تحققت ليس فقط الأداء العالي للطريقة المقترحة، بل أيضًا الإمكانية الأساسية للتعرف على الكلام باستخدام وسيلة الفيديو وحدها، حتى في ظروف طبيعية صعبة كقيادة المركبات.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار