HyperAIHyperAI

Command Palette

Search for a command to run...

AVT: محول الصوت والفيديو للتعرف على الإجراءات متعدد الوسائط

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Kevin Hsu Jingru Yi Wentao Zhu

الملخص

تمثّل التعرف على الإجراءات مجالًا أساسيًا لفهم الفيديو. ولتحقيق تعلّم فعّال من مصادر بيانات متنوعة، نقدّم في هذا العمل منهجًا جديدًا للتعرف على الإجراءات متعددة الوسائط يُسمّى "مُحول الصوت والفيديو" (Audio-Video Transformer - AVT). يستخدم AVT مزيجًا من إشارات الفيديو والصوت لتحسين دقة التعرف على الإجراءات، مع الاستفادة من التمثيل الفعّال للزمن والمكان الذي توفره مُحول الفيديو. وبالنسبة للدمج متعدد الوسائط، فإن الاعتماد على التوصيل البسيط لرموز الوسائط المختلفة في مُحول متعدد الوسائط يتطلب موارد كبيرة في الحوسبة والذاكرة، لذلك نقلّل من تعقيد التفاعل بين الوسائط من خلال مُحول "النقطة الضيقة" (bottleneck) الخاص بالصوت والفيديو. ولتحسين كفاءة التعلّم في مُحول متعدد الوسائط، ندمج أهدافًا ذاتية التعلّم، مثل التعلّم التبايني بين الصوت والفيديو، وتماشي الصوت مع الفيديو، والتعلّم المُقنّع للصوت والفيديو، في عملية تدريب AVT، مما يُمكّن من تحويل تمثيلات الصوت والفيديو المتنوعة إلى فضاء تمثيلي متعدد الوسائط مشترك. كما نقترح بشكل إضافي خسارة قطع جزء الصوت لتمكين AVT من تعلّم الأنشطة الصوتية ذات المعنى. تُظهر التجارب الواسعة والدراسات التحليلية على ثلاث مجموعات بيانات عامة واثنتين من مجموعات البيانات الداخلية فعالية مُنتَج AVT بشكل متسق. وبشكل خاص، يتفوّق AVT على نماذجه السابقة من أفضل النماذج في مجال التعرف على الإجراءات على مجموعتي بيانات Kinetics-Sounds وEpic-Kitchens-100 بنسبة 8% و1% على التوالي، دون الحاجة إلى بيانات تدريب خارجية. كما يتفوّق AVT على أحد أفضل مُحولات الفيديو السابقة بنسبة 10% على مجموعة بيانات VGGSound، وذلك بفضل الاستفادة من إشارة الصوت. مقارنةً بأحد أفضل النماذج متعددة الوسائط السابقة، يُظهر AVT كفاءة أعلى بنسبة 1.3 مرة من حيث عدد العمليات الحسابية (FLOPs)، مع تحسين دقة التعرف بنسبة 4.2% على مجموعة بيانات Epic-Kitchens-100. وتُظهر نتائج التصور أن الصوت يُقدّم ميزات مكملة وتمييزية، وأن AVT قادر على فهم الإجراءات بشكل فعّال من خلال دمج الصوت والفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
AVT: محول الصوت والفيديو للتعرف على الإجراءات متعدد الوسائط | مستندات | HyperAI