HyperAIHyperAI

Command Palette

Search for a command to run...

المحول متعدد المقاييس متعدد الوسائط للتمييز عن الإجراءات متعددة الوسائط

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Jingru Yi Wentao Zhu

الملخص

رغم أن التعرف على الإجراءات كان مجالًا بحثيًا نشطًا لعدة سنوات، فإن معظم الطرق الحالية تعتمد فقط على وسيلة الفيديو، على عكس البشر الذين يعالجون إشارات الفيديو والصوت معًا بشكل فعّال. هذا يحد من استخدام النماذج الحديثة في التطبيقات التي تكون فيها الإجراءات محددة بصريًا بشكل جيد. من ناحية أخرى، يمكن استقبال الصوت والفيديو في هيكل هرمي، مثلاً من الإشارة الصوتية في كل نقطة زمنية عينة إلى الأنشطة الصوتية، ثم الفئة الكاملة في تصنيف الصوت. في هذا العمل، نطور نموذجًا متعدد المقاييس متعدد الوسائط يُعرف بـ (MMT) يعتمد على تعلم التمثيل الهرمي. وتحديدًا، يتكون MMT من مُحول صوتي متعدد المقاييس جديد (MAT) ومُحول فيديو متعدد المقاييس. علاوة على ذلك، نقترح مجموعة من الأهداف التدريبية المراقبة متعددة الوسائط تُعرف بـ "خسارة التباين الصوتي-الصوتي (AVC)" و"خسارة التباين داخل الوسيطة (IMC)"، والتي تُعدّ خصيصًا لمحاذاة الوسيلتين لضمان دمج تمثيلات متعددة الوسائط قوية. وقد تفوق MMT على أحدث النماذج السابقة بنسبة 7.3% و1.6% و2.1% على مجموعات بيانات Kinetics-Sounds وEpic-Kitchens-100 وVGGSound من حيث دقة التصنيف الأولى (top-1) دون الحاجة إلى بيانات تدريب خارجية. بالإضافة إلى ذلك، يتفوّق MAT لدينا بشكل كبير على نموذج AST بنسبة 22.2% و4.4% و4.7% على ثلاث مجموعات بيانات معيارية عامة، ويُعدّ أسرع بثلاث مرات من حيث عدد العمليات الحسابية (FLOPs). من خلال دراسات تحليلية واسعة وتصورات مرئية، نُظهر أن MMT المقترح يمكنه التقاط تمثيلات مميزة ذات معنى بشكل فعّال من مزيج من إشارات الفيديو والصوت.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp