منذ 6 أشهر

الملخص

رغم أن التعرف على الإجراءات كان مجالًا بحثيًا نشطًا لعدة سنوات، فإن معظم الطرق الحالية تعتمد فقط على وسيلة الفيديو، على عكس البشر الذين يعالجون إشارات الفيديو والصوت معًا بشكل فعّال. هذا يحد من استخدام النماذج الحديثة في التطبيقات التي تكون فيها الإجراءات محددة بصريًا بشكل جيد. من ناحية أخرى، يمكن استقبال الصوت والفيديو في هيكل هرمي، مثلاً من الإشارة الصوتية في كل نقطة زمنية عينة إلى الأنشطة الصوتية، ثم الفئة الكاملة في تصنيف الصوت. في هذا العمل، نطور نموذجًا متعدد المقاييس متعدد الوسائط يُعرف بـ (MMT) يعتمد على تعلم التمثيل الهرمي. وتحديدًا، يتكون MMT من مُحول صوتي متعدد المقاييس جديد (MAT) ومُحول فيديو متعدد المقاييس. علاوة على ذلك، نقترح مجموعة من الأهداف التدريبية المراقبة متعددة الوسائط تُعرف بـ "خسارة التباين الصوتي-الصوتي (AVC)" و"خسارة التباين داخل الوسيطة (IMC)"، والتي تُعدّ خصيصًا لمحاذاة الوسيلتين لضمان دمج تمثيلات متعددة الوسائط قوية. وقد تفوق MMT على أحدث النماذج السابقة بنسبة 7.3% و1.6% و2.1% على مجموعات بيانات Kinetics-Sounds وEpic-Kitchens-100 وVGGSound من حيث دقة التصنيف الأولى (top-1) دون الحاجة إلى بيانات تدريب خارجية. بالإضافة إلى ذلك، يتفوّق MAT لدينا بشكل كبير على نموذج AST بنسبة 22.2% و4.4% و4.7% على ثلاث مجموعات بيانات معيارية عامة، ويُعدّ أسرع بثلاث مرات من حيث عدد العمليات الحسابية (FLOPs). من خلال دراسات تحليلية واسعة وتصورات مرئية، نُظهر أن MMT المقترح يمكنه التقاط تمثيلات مميزة ذات معنى بشكل فعّال من مزيج من إشارات الفيديو والصوت.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المحول متعدد المقاييس متعدد الوسائط للتمييز عن الإجراءات متعددة الوسائط

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المحول متعدد المقاييس متعدد الوسائط للتمييز عن الإجراءات متعددة الوسائط

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المحول متعدد المقاييس متعدد الوسائط للتمييز عن الإجراءات متعددة الوسائط

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters