HyperAIHyperAI
منذ 10 أيام

التعرف على الكلام المتشابك من خلال الصوت والصورة على مجموعة بيانات LRS2

Jianwei Yu, Shi-Xiong Zhang, Jian Wu, Shahram Ghorbani, Bo Wu, Shiyin Kang, Shansong Liu, Xunying Liu, Helen Meng, Dong Yu
التعرف على الكلام المتشابك من خلال الصوت والصورة على مجموعة بيانات LRS2
الملخص

لا يزال التعرف التلقائي على الكلام المتشابك مهمةً صعبة للغاية حتى يومنا هذا. مستوحى من الطبيعة ثنائية الوسائط لاستقبال الكلام البشري، تتناول هذه الورقة دراسة استخدام تقنيات الصوت والصورة (الصوتية-البصرية) في التعرف على الكلام المتشابك. وتم معالجة ثلاث قضايا مرتبطة ببناء أنظمة التعرف على الكلام الصوتي-البصري (AVSR). أولاً، تم استكشاف تصميمات البنية الأساسية لأنظمة AVSR، أي النماذج المتكاملة (end-to-end) والهجينة. ثانيًا، تم استخدام بوابات دمج مُصممة بوعي لدمج السمات الصوتية والبصرية بشكل موثوق. ثالثًا، وعلى عكس البنية التقليدية المتسلسلة التي تتضمن مكونات صريحة لفصل الكلام وتقديره، تم اقتراح نظام AVSR مُبسَّط ومُدمج، مُحسَّن بشكل متسق باستخدام معيار التمييز LF-MMI (الذي لا يعتمد على الشبكة). وحققت النموذج المقترح بنظام الشبكة العصبية ذات التأخير الزمني (TDNN) باستخدام معيار LF-MMI أفضل أداءً مُسجَّل حتى الآن على مجموعة بيانات LRS2. وتشير التجارب على الكلام المتشابك المُحاكى من مجموعة بيانات LRS2 إلى أن النظام المقترح قد تفوق على النظام الأساسي الذي يعتمد فقط على الصوت (LF-MMI DNN) بنسبة تصل إلى 29.98% في تقليل معدل أخطاء الكلمات (WER)، وحقق أداءً في التعرف يعادل أداء نظام متسلسل أكثر تعقيدًا. كما تم تحقيق تحسينات متسقة في أداء النظام بنسبة 4.89% مطلقة في تقليل WER مقارنةً بالنظام الأساسي لـ AVSR الذي يعتمد على دمج السمات.

التعرف على الكلام المتشابك من خلال الصوت والصورة على مجموعة بيانات LRS2 | أحدث الأوراق البحثية | HyperAI