HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكلام الصوتي البصري المدعوم برسم بياني للشفت باستخدام التكامل المزدوج المتزامن

Bing Yang Zhan Chen Hong Liu

الملخص

أظهرت الدراسات الحالية أن استخلاص السمات البصرية الممثلة ودمج الوسائط الصوتية والبصرية بشكل فعّال يُعدان أمرًا بالغ الأهمية لتمييز الكلام باستخدام الوسائط الصوتية والبصرية (AVSR)، لكن هذين الجانبين ما زالا يشكلان تحديين كبيرين. ولحل هذه التحديات، نقترح طريقة جديدة لـ AVSR تعتمد على رسم بياني للشفاه مع دمج مزدوج الاتجاه ومتزامن. أولاً، يتم استخدام تدفق بصري هجين يجمع بين فرع الصورة وفرع الرسم البياني لالتقاط السمات البصرية التمييزية. وبشكل خاص، يستخدم الرسم البياني للشفاه الروابط الطبيعية والديناميكية بين نقاط الشفاه الأساسية لتمثيل شكل الشفاه، ويُلتقط التطور الزمني للرسم البياني للشفاه باستخدام شبكات الت convolution البيانية المتبعة بوحدات التكرار ذات البوابة الثنائية الاتجاه. ثانيًا، يُدمج التدفق البصري الهجين مع التدفق الصوتي من خلال آلية دمج متزامن ثنائي الاتجاه تعتمد على الانتباه، مما يسمح بتقديم تفاعل ثنائي الاتجاه بين المعلومات، ويساعد في حل مشكلة عدم التزامن بين الوسائط أثناء عملية الدمج. أظهرت النتائج التجريبية على مجموعة بيانات LRW-BBC أن طريقة التصميم المقترحة تتفوّق على الطريقة الأساسية لـ AVSR النهائية في ظل ظروف نظيفة ومشوشة على حد سواء.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp