الشبكات المتعددة الوسائط ذاتية الإشراف المتنوعة

الفيديوهات هي مصدر غني بالإشراف متعدد الأوضاع. في هذا البحث، نتعلم التمثيلات باستخدام الإشراف الذاتي من خلال الاستفادة من ثلاث أوضاع موجودة بشكل طبيعي في الفيديوهات: التيار البصري، التيار الصوتي والتيار النصي. لهذا الغرض، نقدم مفهوم الشبكة متعددة الأوضاع والمتنوعة -- وهي شبكة قادرة على استقبال عدة أوضاع وتمثيلاتها تمكن المهام اللاحقة في عدة أوضاع. بصفة خاصة، نستكشف كيفية دمج الأوضاع بأفضل طريقة ممكنة بحيث يمكن الحفاظ على تمثيلات دقيقة للتيازرين البصري والصوتي، مع دمج النص في تضمين مشترك. بقيادة التنوع، نقدم أيضًا عملية جديدة للتفريغ (deflation) لكي يتم تطبيق الشبكات بسهولة على البيانات البصرية على شكل فيديو أو صورة ثابتة. نوضح كيف يمكن تطبيق مثل هذه الشبكات التي تم تدريبها على مجموعات كبيرة من بيانات الفيديو غير المصنفة في مهام الفيديو، الفيديو-النص، الصورة والصوت. مجهزين بهذه التمثيلات، نحقق أفضل الأداء حتى الآن في العديد من المقاييس الصعبة بما في ذلك UCF101، HMDB51، Kinetics600، AudioSet و ESC-50 عند المقارنة مع الأعمال السابقة ذات الإشراف الذاتي. نماذجنا متاحة للعامة.