HyperAIHyperAI
منذ 15 أيام

المحول متعدد المقاييس متعدد الوسائط للتمييز عن الإجراءات متعددة الوسائط

{Mohamed Omar, Linda Liu, Xiang Hao, Xiaohang Sun, Jingru Yi, Wentao Zhu}
المحول متعدد المقاييس متعدد الوسائط للتمييز عن الإجراءات متعددة الوسائط
الملخص

رغم أن التعرف على الإجراءات كان مجالًا بحثيًا نشطًا لعدة سنوات، فإن معظم الطرق الحالية تعتمد فقط على وسيلة الفيديو، على عكس البشر الذين يعالجون إشارات الفيديو والصوت معًا بشكل فعّال. هذا يحد من استخدام النماذج الحديثة في التطبيقات التي تكون فيها الإجراءات محددة بصريًا بشكل جيد. من ناحية أخرى، يمكن استقبال الصوت والفيديو في هيكل هرمي، مثلاً من الإشارة الصوتية في كل نقطة زمنية عينة إلى الأنشطة الصوتية، ثم الفئة الكاملة في تصنيف الصوت. في هذا العمل، نطور نموذجًا متعدد المقاييس متعدد الوسائط يُعرف بـ (MMT) يعتمد على تعلم التمثيل الهرمي. وتحديدًا، يتكون MMT من مُحول صوتي متعدد المقاييس جديد (MAT) ومُحول فيديو متعدد المقاييس. علاوة على ذلك، نقترح مجموعة من الأهداف التدريبية المراقبة متعددة الوسائط تُعرف بـ "خسارة التباين الصوتي-الصوتي (AVC)" و"خسارة التباين داخل الوسيطة (IMC)"، والتي تُعدّ خصيصًا لمحاذاة الوسيلتين لضمان دمج تمثيلات متعددة الوسائط قوية. وقد تفوق MMT على أحدث النماذج السابقة بنسبة 7.3% و1.6% و2.1% على مجموعات بيانات Kinetics-Sounds وEpic-Kitchens-100 وVGGSound من حيث دقة التصنيف الأولى (top-1) دون الحاجة إلى بيانات تدريب خارجية. بالإضافة إلى ذلك، يتفوّق MAT لدينا بشكل كبير على نموذج AST بنسبة 22.2% و4.4% و4.7% على ثلاث مجموعات بيانات معيارية عامة، ويُعدّ أسرع بثلاث مرات من حيث عدد العمليات الحسابية (FLOPs). من خلال دراسات تحليلية واسعة وتصورات مرئية، نُظهر أن MMT المقترح يمكنه التقاط تمثيلات مميزة ذات معنى بشكل فعّال من مزيج من إشارات الفيديو والصوت.

المحول متعدد المقاييس متعدد الوسائط للتمييز عن الإجراءات متعددة الوسائط | أحدث الأوراق البحثية | HyperAI