شبكة تكرارية متعددة الانتباه لفهم التواصل البشري

الاتصال البشري المباشر هو إشارة متعددة الأوضاع معقدة. نستخدم الكلمات (وضع اللغة)، الحركات (وضع الرؤية) والتغيرات في النبرة (وضع الصوت) لنقل نوايانا. يسهل على البشر معالجة وفهم الاتصال المباشر، ومع ذلك، فإن فهم هذا النوع من الاتصال يظل تحديًا كبيرًا للذكاء الاصطناعي (AI). يجب على الذكاء الاصطناعي أن يفهم كل وضع والتفاعلات بينها التي تشكل الاتصال البشري. في هذه الورقة البحثية، نقدم معمارية عصبية جديدة لفهم الاتصال البشري تُسمى شبكة التكرار المتعددة الانتباه (MARN). القوة الرئيسية لنموذجنا تنبع من اكتشاف التفاعلات بين الأوضاع عبر الزمن باستخدام مكون عصبي يُسمى كتلة الانتباه المتعدد (MAB) وتخزينها في ذاكرة الهجين للتكرار المكونة طويلة الأمد قصيرة الأمد (LSTHM). نقوم بإجراء مقارنات شاملة على ستة مجموعات بيانات متاحة للجمهور لتحليل المشاعر المتعددة الأوضاع، وتعرف صفات المتحدث والعواطف. أظهرت MARN أداءً رائدًا في جميع المجموعات البيانات.