التعلم التعاوني للنماذج الصوتية والفيديو من خلال التزامن الذاتي

هناك علاقة طبيعية بين العناصر البصرية والسمعية في الفيديو. في هذا البحث، نستغل هذه العلاقة لتعلم نماذج عامة وفعالة لكل من تحليل الصوت والفيديو من خلال التزامن الزمني الذاتي المشرف. نوضح أن برنامج التعلم المتدرج المُحَدَّد بدقة، واختيارًا حذرًا لل أمثلة السلبية، واستخدام خسارة مقارنة (contrastive loss) هي عناصر أساسية للحصول على تمثيلات متعددة الحواس قوية من النماذج التي تم تحسينها لاكتشاف التزامن الزمني للأزواج الصوت-فيديو. بدون أي تعديلات إضافية، تحقق الخصائص السمعية الناتجة أداءً يفوق أو يعادل أفضل الأداءات على مقاييس تصنيف الصوت المعروفة (DCASE2014 وESC-50). وفي الوقت نفسه، توفر شبكتنا البصرية تمهيدًا فعالًا للغاية لتحسين دقة نماذج التعرف على الأفعال المستندة إلى الفيديو: مقارنة بتعلم النموذج من الصفر، يؤدي التدريب الذاتي المسبق لدينا إلى زيادة ملحوظة بنسبة +19.9% في دقة التعرف على الأفعال على UCF101 وزيادة بنسبة +17.7% على HMDB51.