منذ 7 أشهر

الملخص

تمثّل التعرف على الإجراءات مجالًا أساسيًا لفهم الفيديو. ولتحقيق تعلّم فعّال من مصادر بيانات متنوعة، نقدّم في هذا العمل منهجًا جديدًا للتعرف على الإجراءات متعددة الوسائط يُسمّى "مُحول الصوت والفيديو" (Audio-Video Transformer - AVT). يستخدم AVT مزيجًا من إشارات الفيديو والصوت لتحسين دقة التعرف على الإجراءات، مع الاستفادة من التمثيل الفعّال للزمن والمكان الذي توفره مُحول الفيديو. وبالنسبة للدمج متعدد الوسائط، فإن الاعتماد على التوصيل البسيط لرموز الوسائط المختلفة في مُحول متعدد الوسائط يتطلب موارد كبيرة في الحوسبة والذاكرة، لذلك نقلّل من تعقيد التفاعل بين الوسائط من خلال مُحول "النقطة الضيقة" (bottleneck) الخاص بالصوت والفيديو. ولتحسين كفاءة التعلّم في مُحول متعدد الوسائط، ندمج أهدافًا ذاتية التعلّم، مثل التعلّم التبايني بين الصوت والفيديو، وتماشي الصوت مع الفيديو، والتعلّم المُقنّع للصوت والفيديو، في عملية تدريب AVT، مما يُمكّن من تحويل تمثيلات الصوت والفيديو المتنوعة إلى فضاء تمثيلي متعدد الوسائط مشترك. كما نقترح بشكل إضافي خسارة قطع جزء الصوت لتمكين AVT من تعلّم الأنشطة الصوتية ذات المعنى. تُظهر التجارب الواسعة والدراسات التحليلية على ثلاث مجموعات بيانات عامة واثنتين من مجموعات البيانات الداخلية فعالية مُنتَج AVT بشكل متسق. وبشكل خاص، يتفوّق AVT على نماذجه السابقة من أفضل النماذج في مجال التعرف على الإجراءات على مجموعتي بيانات Kinetics-Sounds وEpic-Kitchens-100 بنسبة 8% و1% على التوالي، دون الحاجة إلى بيانات تدريب خارجية. كما يتفوّق AVT على أحد أفضل مُحولات الفيديو السابقة بنسبة 10% على مجموعة بيانات VGGSound، وذلك بفضل الاستفادة من إشارة الصوت. مقارنةً بأحد أفضل النماذج متعددة الوسائط السابقة، يُظهر AVT كفاءة أعلى بنسبة 1.3 مرة من حيث عدد العمليات الحسابية (FLOPs)، مع تحسين دقة التعرف بنسبة 4.2% على مجموعة بيانات Epic-Kitchens-100. وتُظهر نتائج التصور أن الصوت يُقدّم ميزات مكملة وتمييزية، وأن AVT قادر على فهم الإجراءات بشكل فعّال من خلال دمج الصوت والفيديو.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Kevin Hsu Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Kevin Hsu Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Kevin Hsu Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

AVT: محول الصوت والفيديو للتعرف على الإجراءات متعدد الوسائط

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Kevin Hsu Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

AVT: محول الصوت والفيديو للتعرف على الإجراءات متعدد الوسائط

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Kevin Hsu Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

AVT: محول الصوت والفيديو للتعرف على الإجراءات متعدد الوسائط

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Kevin Hsu Jingru Yi Wentao Zhu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters