HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكلام المتشابك من خلال الصوت والصورة على مجموعة بيانات LRS2

Jianwei Yu Shi-Xiong Zhang Jian Wu Shahram Ghorbani Bo Wu Shiyin Kang Shansong Liu Xunying Liu Helen Meng Dong Yu

الملخص

لا يزال التعرف التلقائي على الكلام المتشابك مهمةً صعبة للغاية حتى يومنا هذا. مستوحى من الطبيعة ثنائية الوسائط لاستقبال الكلام البشري، تتناول هذه الورقة دراسة استخدام تقنيات الصوت والصورة (الصوتية-البصرية) في التعرف على الكلام المتشابك. وتم معالجة ثلاث قضايا مرتبطة ببناء أنظمة التعرف على الكلام الصوتي-البصري (AVSR). أولاً، تم استكشاف تصميمات البنية الأساسية لأنظمة AVSR، أي النماذج المتكاملة (end-to-end) والهجينة. ثانيًا، تم استخدام بوابات دمج مُصممة بوعي لدمج السمات الصوتية والبصرية بشكل موثوق. ثالثًا، وعلى عكس البنية التقليدية المتسلسلة التي تتضمن مكونات صريحة لفصل الكلام وتقديره، تم اقتراح نظام AVSR مُبسَّط ومُدمج، مُحسَّن بشكل متسق باستخدام معيار التمييز LF-MMI (الذي لا يعتمد على الشبكة). وحققت النموذج المقترح بنظام الشبكة العصبية ذات التأخير الزمني (TDNN) باستخدام معيار LF-MMI أفضل أداءً مُسجَّل حتى الآن على مجموعة بيانات LRS2. وتشير التجارب على الكلام المتشابك المُحاكى من مجموعة بيانات LRS2 إلى أن النظام المقترح قد تفوق على النظام الأساسي الذي يعتمد فقط على الصوت (LF-MMI DNN) بنسبة تصل إلى 29.98% في تقليل معدل أخطاء الكلمات (WER)، وحقق أداءً في التعرف يعادل أداء نظام متسلسل أكثر تعقيدًا. كما تم تحقيق تحسينات متسقة في أداء النظام بنسبة 4.89% مطلقة في تقليل WER مقارنةً بالنظام الأساسي لـ AVSR الذي يعتمد على دمج السمات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp