HyperAIHyperAI
منذ 17 أيام

مومو: تكامل متعدد الوسائط موجه بناءً على التعلم التعاوني متعدد المهام

{Tariq Iqbal, Md Mofijul Islam}
الملخص

يمكن للحواس المتعددة الوسائط (البصرية، غير البصرية، والقابلة للارتداء) أن توفر معلومات مكملة لتطوير أنظمة إدراك قوية للتعرف بدقة على الأنشطة البشرية. ومع ذلك، يُعد استخراج تمثيلات متعددة الوسائط المتميزة تحديًا كبيرًا بسبب الخصائص المختلفة للبيانات الناتجة عن أجهزة الاستشعار متعددة الوسائط، والاختلافات الكبيرة في الأنشطة البشرية، خاصة في ظل وجود بيانات حساسات مُشوَّشة وغير متماشية. في هذا العمل، نقترح نهجًا مبنيًا على التعلم التعاوني متعدد المهام لاستخلاص تمثيلات متعددة الوسائط المتميزة، يُسمى MuMu، لتحسين التعرف على الأنشطة البشرية (HAR). يستخدم MuMu نهجًا للتعلم المُساعِد لاستخراج ميزات محددة لكل مجموعة من الأنشطة التي تشترك في خصائص مشتركة (مجموعة الأنشطة). ثم يستخدم MuMu هذه الميزات المخصصة لمجموعات الأنشطة لتوجيه النهج المُقترح المسمى "الدمج الموجه متعدد الوسائط" (GM-Fusion)، والذي يهدف إلى استخلاص تمثيلات متعددة الوسائط المكملة. قُمنا بتقييم أداء MuMu من خلال مقارنته بأفضل الطرق الحالية في التعرف على الأنشطة البشرية متعددة الوسائط على ثلاث مجموعات بيانات للأنشطة. أظهرت النتائج التجريبية الواسعة أن MuMu يتفوق على جميع الطرق المُقيّمة في جميع ثلاث مجموعات البيانات. علاوةً على ذلك، أشارت دراسة الاستبعاد (أبليشن ستودي) إلى أن MuMu يتفوق بشكل كبير على النماذج الأساسية (p<0.05) التي لا تستخدم دمجنا الموجه متعدد الوسائط. وأخيرًا، تُشير الأداء القوي لـ MuMu في ظل بيانات حساسات مُشوَّشة وغير متماشية إلى أن النهج المقترح مناسب جدًا للتطبيق في البيئات الواقعية للتعرف على الأنشطة البشرية.