نَسَقٌ بسيطٌ لمحادثة مُدرَكة للبيئة الصوتية والبصرية

يُعدّ التحدي المُقترح حديثًا لل диالوج السمعي البصري المُدرك للبيئة خطوة مهمة نحو تطوير طريقة أكثر اعتمادًا على البيانات لتعلم المساعدات الافتراضية وأجهزة المتكلم الذكية وأنظمة التوجيه في السيارات. ومع ذلك، لا يزال هناك معرفة محدودة حتى الآن حول كيفية استخلاص معلومات ذات معنى بشكل فعّال من كمّ هائل من المستشعرات التي تُثقل محرك الحوسبة في هذه الأجهزة. ولذلك، في هذا البحث، نقدّم تحليلًا دقيقًا لقاعدة بسيطة (Baseline) لل диالوج السمعي البصري المُدرك للبيئة، والتي تُدرّس بطريقة متكاملة (end-to-end). ويتميّز هذا النهج بتمييزه، بطريقة تعتمد على البيانات، بين الإشارات المفيدة والمضللة باستخدام آلية الانتباه (Attention Mechanism). وقد قُمنا بتقييم النهج المقترح على مجموعة بيانات سمعية وبصرية مُدرَجة حديثًا وصعبة، ونُظهِر الميزات الأساسية التي تُمكّن من تجاوز الحد الأقصى الحالي للتقنية (state-of-the-art) بنسبة تزيد عن 20% وفقًا لمعيار CIDEr.