Command Palette
Search for a command to run...
الشبكات المتعددة الوسائط ذاتية الإشراف المتنوعة
الشبكات المتعددة الوسائط ذاتية الإشراف المتنوعة
Jean-Baptiste Alayrac extsuperscript1 extsuperscript* Adrià Recasens extsuperscript1 extsuperscript* Rosalia Schneider extsuperscript1 extsuperscript* Relja Arandjelović extsuperscript1 extsuperscript* Jason Ramapuram extsuperscript2,3 extsuperscript† Jeffrey De Fauw extsuperscript1 Lucas Smaira extsuperscript1 Sander Dieleman extsuperscript1 Andrew Zisserman extsuperscript1,4
الملخص
الفيديوهات هي مصدر غني بالإشراف متعدد الأوضاع. في هذا البحث، نتعلم التمثيلات باستخدام الإشراف الذاتي من خلال الاستفادة من ثلاث أوضاع موجودة بشكل طبيعي في الفيديوهات: التيار البصري، التيار الصوتي والتيار النصي. لهذا الغرض، نقدم مفهوم الشبكة متعددة الأوضاع والمتنوعة -- وهي شبكة قادرة على استقبال عدة أوضاع وتمثيلاتها تمكن المهام اللاحقة في عدة أوضاع. بصفة خاصة، نستكشف كيفية دمج الأوضاع بأفضل طريقة ممكنة بحيث يمكن الحفاظ على تمثيلات دقيقة للتيازرين البصري والصوتي، مع دمج النص في تضمين مشترك. بقيادة التنوع، نقدم أيضًا عملية جديدة للتفريغ (deflation) لكي يتم تطبيق الشبكات بسهولة على البيانات البصرية على شكل فيديو أو صورة ثابتة. نوضح كيف يمكن تطبيق مثل هذه الشبكات التي تم تدريبها على مجموعات كبيرة من بيانات الفيديو غير المصنفة في مهام الفيديو، الفيديو-النص، الصورة والصوت. مجهزين بهذه التمثيلات، نحقق أفضل الأداء حتى الآن في العديد من المقاييس الصعبة بما في ذلك UCF101، HMDB51، Kinetics600، AudioSet و ESC-50 عند المقارنة مع الأعمال السابقة ذات الإشراف الذاتي. نماذجنا متاحة للعامة.