HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

AVT: محول الصوت والفيديو للتعرف على الإجراءات متعدد الوسائط

{Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Kevin Hsu Jingru Yi Wentao Zhu}

AVT: محول الصوت والفيديو للتعرف على الإجراءات متعدد الوسائط

الملخص

تمثّل التعرف على الإجراءات مجالًا أساسيًا لفهم الفيديو. ولتحقيق تعلّم فعّال من مصادر بيانات متنوعة، نقدّم في هذا العمل منهجًا جديدًا للتعرف على الإجراءات متعددة الوسائط يُسمّى "مُحول الصوت والفيديو" (Audio-Video Transformer - AVT). يستخدم AVT مزيجًا من إشارات الفيديو والصوت لتحسين دقة التعرف على الإجراءات، مع الاستفادة من التمثيل الفعّال للزمن والمكان الذي توفره مُحول الفيديو. وبالنسبة للدمج متعدد الوسائط، فإن الاعتماد على التوصيل البسيط لرموز الوسائط المختلفة في مُحول متعدد الوسائط يتطلب موارد كبيرة في الحوسبة والذاكرة، لذلك نقلّل من تعقيد التفاعل بين الوسائط من خلال مُحول "النقطة الضيقة" (bottleneck) الخاص بالصوت والفيديو. ولتحسين كفاءة التعلّم في مُحول متعدد الوسائط، ندمج أهدافًا ذاتية التعلّم، مثل التعلّم التبايني بين الصوت والفيديو، وتماشي الصوت مع الفيديو، والتعلّم المُقنّع للصوت والفيديو، في عملية تدريب AVT، مما يُمكّن من تحويل تمثيلات الصوت والفيديو المتنوعة إلى فضاء تمثيلي متعدد الوسائط مشترك. كما نقترح بشكل إضافي خسارة قطع جزء الصوت لتمكين AVT من تعلّم الأنشطة الصوتية ذات المعنى. تُظهر التجارب الواسعة والدراسات التحليلية على ثلاث مجموعات بيانات عامة واثنتين من مجموعات البيانات الداخلية فعالية مُنتَج AVT بشكل متسق. وبشكل خاص، يتفوّق AVT على نماذجه السابقة من أفضل النماذج في مجال التعرف على الإجراءات على مجموعتي بيانات Kinetics-Sounds وEpic-Kitchens-100 بنسبة 8% و1% على التوالي، دون الحاجة إلى بيانات تدريب خارجية. كما يتفوّق AVT على أحد أفضل مُحولات الفيديو السابقة بنسبة 10% على مجموعة بيانات VGGSound، وذلك بفضل الاستفادة من إشارة الصوت. مقارنةً بأحد أفضل النماذج متعددة الوسائط السابقة، يُظهر AVT كفاءة أعلى بنسبة 1.3 مرة من حيث عدد العمليات الحسابية (FLOPs)، مع تحسين دقة التعرف بنسبة 4.2% على مجموعة بيانات Epic-Kitchens-100. وتُظهر نتائج التصور أن الصوت يُقدّم ميزات مكملة وتمييزية، وأن AVT قادر على فهم الإجراءات بشكل فعّال من خلال دمج الصوت والفيديو.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
action-recognition-on-epic-kitchens-100AVT
Action@1: 47.2
Noun@1: 59.3
Verb@1: 70.4
audio-classification-on-vggsoundAVT (Audio-Visual)
Top 1 Accuracy: 63.9
Top 5 Accuracy: 85.0
audio-classification-on-vggsoundAVT (V)
Top 1 Accuracy: 53.2
Top 5 Accuracy: 74.8
multi-modal-classification-on-vgg-soundAVT
Top-1 Accuracy: 63.9
Top-5 Accuracy: 85.0

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
AVT: محول الصوت والفيديو للتعرف على الإجراءات متعدد الوسائط | الأوراق البحثية | HyperAI