التعرف على الكلام البصري الصوتي المستند إلى مُحَوِّلٍ مُنظَّم واستراتيجية دمج فضائي-زمني لأنظمة المساعدة السائقية
يقدم هذا المقال منهجية بحثية للاعتراف بالكلام المرئي والصوتي (AVSR) في أنظمة المساعدة للسائقين. تتطلب هذه الأنظمة تفاعلًا مستمرًا مع السائق أثناء القيادة من خلال التحكم الصوتي لأسباب تتعلق بالسلامة. ويُقدّم المقال نموذجًا جديدًا يُسمى "مُحول اعتراف الأوامر الصوتية والبصرية" (AVCRFormer)، مصممًا خصيصًا لتحسين أداء الاعتراف بالكلام المرئي والصوتي. ونُقترح في هذا العمل: (أ) استراتيجية اندماج متعددة الوسائط تعتمد على اندماج مكاني وزماني لمصفوفات الميزات الصوتية والبصرية، (ب) محول مُنظَّم يعتمد على وحدة تحسين نموذجي تكراريّة تتضمن عدة مُشفّرات، (ج) استراتيجية تجميع تصنيفية تعتمد على عدة مُفكّكات. وتُحافظ استراتيجية الاندماج المكاني والزماني على المعلومات السياقية لكلا الوسائط، وتحقق مزامنة فعّالة بينهما. كما يمكن لوحدة التحسين التكراريّة للنموذج تقليل الفجوة بين البيانات الصوتية والبصرية من خلال الاستفادة من تأثير كلتا الوسائط على دقة الاعتراف بالكلام. وتُظهر الاستراتيجية المقترحة للتنبؤ المتعدد أداءً متفوّقًا مقارنةً بالاستراتيجيات التقليدية للتنبؤ الواحد، مما يُبرز قدرة النموذج على التكيّف في سياقات صوتية وبصرية متنوعة. وقد حقق المحول المُقترح أعلى معدلات دقة في اعتراف أوامر الكلام، حيث بلغت 98.87% و98.81% على مجموعتي البيانات RUSAVIC وLRW على التوالي. وللبحث تأثيرات كبيرة على تطوير التفاعل بين الإنسان والآلة. وتمتد قدرات نموذج AVCRFormer إلى ما وراء مجال AVSR، مما يجعله إسهامًا قيّمًا في تقاطع معالجة الوسائط الصوتية والبصرية مع الذكاء الاصطناعي.