ASPnet: تجزئة الإجراءات مع تمثيل مشترك-خاص لمصادر البيانات المتعددة

تعتمد معظم الأساليب الحديثة لتقسيم الحركات على وسائط إدخال واحدة أو دمجًا بسيطًا لمصادر بيانات متعددة. ومع ذلك، يمكن أن يؤدي الدمج الفعّال للمعلومات المكملة إلى تعزيز نماذج التقسيم وجعلها أكثر مقاومة لضوضاء المستشعرات وأكثر دقة باستخدام مجموعات تدريب أصغر. من أجل تحسين تعلم التمثيل متعدد الوسائط لتقسيم الحركات، نقترح فصل الميزات المخفية لنموذج تقسيم متعدد التدفقات إلى مكونات مشتركة بين الوسائط، والتي تحتوي على معلومات مشتركة بين مصادر البيانات، ومكونات خاصة بكل وسيلة؛ ثم نستخدم حجر عقدة انتباه (attention bottleneck) لالتقاط الاعتماديات الزمنية الطويلة المدى في البيانات مع الحفاظ على الفصل بين المكونات في الطبقات المتتالية للمعالجة. أظهرت التقييمات على مجموعات بيانات 50salads وBreakfast وRARP45 أن نهجنا متعدد الوسائط يتفوق على مختلف أساليب الدمج المبنية على مصادر بيانات متعددة، سواء في البيانات متعددة الزوايا أو متعددة الوسائط، محققاً نتائج تنافسية أو أفضل مقارنةً بأحدث النماذج. كما أن نموذجنا أكثر مقاومةً لضوضاء المستشعرات الإضافية، ويمكنه تحقيق أداءً مماثلاً للنماذج القوية القائمة على الفيديو حتى مع استخدام كميات أقل من بيانات التدريب.