HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم التعاوني للنماذج الصوتية والفيديو من خلال التزامن الذاتي

Bruno Korbar Du Tran Lorenzo Torresani

الملخص

هناك علاقة طبيعية بين العناصر البصرية والسمعية في الفيديو. في هذا البحث، نستغل هذه العلاقة لتعلم نماذج عامة وفعالة لكل من تحليل الصوت والفيديو من خلال التزامن الزمني الذاتي المشرف. نوضح أن برنامج التعلم المتدرج المُحَدَّد بدقة، واختيارًا حذرًا لل أمثلة السلبية، واستخدام خسارة مقارنة (contrastive loss) هي عناصر أساسية للحصول على تمثيلات متعددة الحواس قوية من النماذج التي تم تحسينها لاكتشاف التزامن الزمني للأزواج الصوت-فيديو. بدون أي تعديلات إضافية، تحقق الخصائص السمعية الناتجة أداءً يفوق أو يعادل أفضل الأداءات على مقاييس تصنيف الصوت المعروفة (DCASE2014 وESC-50). وفي الوقت نفسه، توفر شبكتنا البصرية تمهيدًا فعالًا للغاية لتحسين دقة نماذج التعرف على الأفعال المستندة إلى الفيديو: مقارنة بتعلم النموذج من الصفر، يؤدي التدريب الذاتي المسبق لدينا إلى زيادة ملحوظة بنسبة +19.9% في دقة التعرف على الأفعال على UCF101 وزيادة بنسبة +17.7% على HMDB51.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp