مُضَمِّمُ التَّحَوُّلِ التَّوقُّعِيِّ لِدَمْجِ المَوْضُوعَاتِ متعددَةِ الْمَوْضُوعَاتِ لِتَوْقُّعِ التَّحَرُّكِ

رغم أن توقع السلوك البشري هو مهمة تتميّز بطبيعتها بكونها متعددة الوسائط، فإن الطرق المتطورة حديثًا على مجموعات بيانات معروفة لتوقع السلوك تستفيد من هذه البيانات من خلال تطبيق أساليب التجميع وحساب المتوسط للنتائج الناتجة عن شبكات توقع أحادية الوسائط. في هذه الدراسة، نقدّم تقنيات دمج الوسائط تعتمد على المحولات (Transformers)، والتي تُوحّد البيانات متعددة الوسائط في مرحلة مبكرة جدًا. يُظهر نموذجنا، المعروف بـ "محول دمج الميزات التوقّعية" (AFFT)، تفوقه على الأساليب الشائعة لدمج النتائج، ويحقق نتائج رائدة على مستوى المجال، متفوّقًا على الطرق السابقة على مجموعتي بيانات EpicKitchens-100 وEGTEA Gaze+. كما أن نموذجنا قابل للتوسيع بسهولة، ويسمح بإضافة وسائط جديدة دون الحاجة إلى تغيير البنية المعمارية. ونتيجة لذلك، استخرجنا ميزات صوتية من مجموعة بيانات EpicKitchens-100، وقمنا بإضافتها إلى مجموعة الميزات الشائعة التي يستخدمها المجتمع.