HyperAIHyperAI
منذ 9 أيام

التعرف على الكلام والحركة البصرية الصوتية بواسطة أجهزة الاستشعار في الأجهزة المحمولة

{Elena Ryumina, Denis Ivanko, Dmitry Ryumin}
الملخص

تمثّل التعرف على الكلام المرئي والصوتي (AVSR) إحدى الحلول الواعدة بشكل كبير لتحقيق التعرف الموثوق على الكلام، خاصة في الحالات التي يكون فيها الصوت متأثرًا بالضوضاء. يمكن استخدام المعلومات البصرية الإضافية في التعرف التلقائي على حركات الشفاه وكذلك في التعرف على الإيماءات. تُعد الإيماءات اليدوية شكلًا من أشكال التواصل غير اللفظي، ويمكن أن تُستخدم كجزء مهم جدًا في أنظمة التفاعل بين الإنسان والآلة الحديثة. في الوقت الراهن، أصبحت وسائط الصوت والفيديو متاحة بسهولة من خلال أجهزة الاستشعار المدمجة في الأجهزة المحمولة. ومع ذلك، لا توجد حاليًا حلول جاهزة للاعتراف التلقائي بالكلام والحركة المرئية والصوتية. تقدّم هذه الدراسة نموذجين مبنيين على الشبكات العصبية العميقة: نموذج واحد للتعرف على الكلام المرئي والصوتي، ونموذج آخر للتعرف على الإيماءات. تكمن الابتكار الرئيسي في التعرف على الكلام المرئي والصوتي في استراتيجيات التخصيص الدقيق (fine-tuning) لكل من السمات البصرية والصوتية، بالإضافة إلى النموذج المتكامل المُقترح الذي يأخذ بعين الاعتبار ثلاث طرق للدمج بين الوسائط: الدمج على مستوى التنبؤ، والدمج على مستوى السمات، والدمج على مستوى النموذج. أما الابتكار الرئيسي في التعرف على الإيماءات فيكمن في مجموعة فريدة من السمات الزمانية والمكانية، تشمل سمات تأخذ بعين الاعتبار معلومات تحرّك الشفاه. وبما أنه لا توجد حالياً مجموعات بيانات متاحة للمهمة المدمجة، قمنا بتقييم منهجياتنا على مجموعتين كبيرتين من البيانات: LRW وAUTSL، وتفوّقنا على الطرق الحالية في كلا المهمتين: التعرف على الكلام المرئي والصوتي والتعرف على الإيماءات. وحققنا دقة في التعرف على الكلام المرئي والصوتي على مجموعة بيانات LRW تبلغ 98.76٪، ونسبة تعرف على الإيماءات على مجموعة بيانات AUTSL تبلغ 98.56٪. تُظهر النتائج المتحصل عليها ليس فقط الأداء العالي للمنهجية المقترحة، بل أيضًا الإمكانية الأساسية للتعرف على الكلام المرئي والصوتي والإيماءات باستخدام أجهزة الاستشعار المدمجة في الأجهزة المحمولة.