HyperAIHyperAI

Command Palette

Search for a command to run...

وجهة نظر أخرى حول التعرف على الكلام البصري

Frederic Precioso Charles Bouveyron Giacomo Valenti Laurent Pilati Baptiste Pouthier

الملخص

تُعالج أنظمة التعرف البصري على الكلام (VSR) القياسية الصور مباشرة كمُدخلات دون أي ارتباط مسبق بين بيانات البكسل الخام والخصائص الوجهية. ويتم تصفية معلومات البكسل بشكل ذكي عند استخراج نقاط الملامح الوجهية من الصور، والتي تُعاد توظيفها كعُقد في رسم بياني. ويُمثل تطور هذه النقاط عبر الزمن باستخدام شبكة توليفية رسمية (Graph Convolutional Network). ومع أن النموذج القائم على الرسوم البيانية للـ VSR ما زال في مراحله الأولى، فإن اختيار النقاط وعلاقتها المتبادلة لا يزال غير مُعرّف بدقة، وغالبًا ما يعتمد على معرفة مسبقة وتقنيات مُصممة يدويًا. في هذه الورقة، نستعرض النهج القائم على الرسوم البيانية للـ VSR وقدرته على تعلّم العلاقات بين النقاط خارج منطقة الفم. كما ندرس المساهمات المختلفة التي تُقدّمها كل منطقة وجهية في دقة النظام، ونُثبت أن الرسوم البيانية المُنتَشِرة أكثر ولكنها مُرتبطة بشكل أفضل يمكن أن تكون خفيفة من حيث الحوسبة ودقيقة في الوقت نفسه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp