منذ 7 أشهر

الملخص

تُعالج أنظمة التعرف البصري على الكلام (VSR) القياسية الصور مباشرة كمُدخلات دون أي ارتباط مسبق بين بيانات البكسل الخام والخصائص الوجهية. ويتم تصفية معلومات البكسل بشكل ذكي عند استخراج نقاط الملامح الوجهية من الصور، والتي تُعاد توظيفها كعُقد في رسم بياني. ويُمثل تطور هذه النقاط عبر الزمن باستخدام شبكة توليفية رسمية (Graph Convolutional Network). ومع أن النموذج القائم على الرسوم البيانية للـ VSR ما زال في مراحله الأولى، فإن اختيار النقاط وعلاقتها المتبادلة لا يزال غير مُعرّف بدقة، وغالبًا ما يعتمد على معرفة مسبقة وتقنيات مُصممة يدويًا. في هذه الورقة، نستعرض النهج القائم على الرسوم البيانية للـ VSR وقدرته على تعلّم العلاقات بين النقاط خارج منطقة الفم. كما ندرس المساهمات المختلفة التي تُقدّمها كل منطقة وجهية في دقة النظام، ونُثبت أن الرسوم البيانية المُنتَشِرة أكثر ولكنها مُرتبطة بشكل أفضل يمكن أن تكون خفيفة من حيث الحوسبة ودقيقة في الوقت نفسه.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار