AVT: محول الصوت والفيديو للتعرف على الإجراءات متعدد الوسائط

تمثّل التعرف على الإجراءات مجالًا أساسيًا لفهم الفيديو. ولتحقيق تعلّم فعّال من مصادر بيانات متنوعة، نقدّم في هذا العمل منهجًا جديدًا للتعرف على الإجراءات متعددة الوسائط يُسمّى "مُحول الصوت والفيديو" (Audio-Video Transformer - AVT). يستخدم AVT مزيجًا من إشارات الفيديو والصوت لتحسين دقة التعرف على الإجراءات، مع الاستفادة من التمثيل الفعّال للزمن والمكان الذي توفره مُحول الفيديو. وبالنسبة للدمج متعدد الوسائط، فإن الاعتماد على التوصيل البسيط لرموز الوسائط المختلفة في مُحول متعدد الوسائط يتطلب موارد كبيرة في الحوسبة والذاكرة، لذلك نقلّل من تعقيد التفاعل بين الوسائط من خلال مُحول "النقطة الضيقة" (bottleneck) الخاص بالصوت والفيديو. ولتحسين كفاءة التعلّم في مُحول متعدد الوسائط، ندمج أهدافًا ذاتية التعلّم، مثل التعلّم التبايني بين الصوت والفيديو، وتماشي الصوت مع الفيديو، والتعلّم المُقنّع للصوت والفيديو، في عملية تدريب AVT، مما يُمكّن من تحويل تمثيلات الصوت والفيديو المتنوعة إلى فضاء تمثيلي متعدد الوسائط مشترك. كما نقترح بشكل إضافي خسارة قطع جزء الصوت لتمكين AVT من تعلّم الأنشطة الصوتية ذات المعنى. تُظهر التجارب الواسعة والدراسات التحليلية على ثلاث مجموعات بيانات عامة واثنتين من مجموعات البيانات الداخلية فعالية مُنتَج AVT بشكل متسق. وبشكل خاص، يتفوّق AVT على نماذجه السابقة من أفضل النماذج في مجال التعرف على الإجراءات على مجموعتي بيانات Kinetics-Sounds وEpic-Kitchens-100 بنسبة 8% و1% على التوالي، دون الحاجة إلى بيانات تدريب خارجية. كما يتفوّق AVT على أحد أفضل مُحولات الفيديو السابقة بنسبة 10% على مجموعة بيانات VGGSound، وذلك بفضل الاستفادة من إشارة الصوت. مقارنةً بأحد أفضل النماذج متعددة الوسائط السابقة، يُظهر AVT كفاءة أعلى بنسبة 1.3 مرة من حيث عدد العمليات الحسابية (FLOPs)، مع تحسين دقة التعرف بنسبة 4.2% على مجموعة بيانات Epic-Kitchens-100. وتُظهر نتائج التصور أن الصوت يُقدّم ميزات مكملة وتمييزية، وأن AVT قادر على فهم الإجراءات بشكل فعّال من خلال دمج الصوت والفيديو.