HyperAIHyperAI

Command Palette

Search for a command to run...

الشبكات المتعددة الوسائط ذاتية الإشراف المتنوعة

Jean-Baptiste Alayrac extsuperscript1 extsuperscript* Adrià Recasens extsuperscript1 extsuperscript* Rosalia Schneider extsuperscript1 extsuperscript* Relja Arandjelović extsuperscript1 extsuperscript* Jason Ramapuram extsuperscript2,3 extsuperscript† Jeffrey De Fauw extsuperscript1 Lucas Smaira extsuperscript1 Sander Dieleman extsuperscript1 Andrew Zisserman extsuperscript1,4

الملخص

الفيديوهات هي مصدر غني بالإشراف متعدد الأوضاع. في هذا البحث، نتعلم التمثيلات باستخدام الإشراف الذاتي من خلال الاستفادة من ثلاث أوضاع موجودة بشكل طبيعي في الفيديوهات: التيار البصري، التيار الصوتي والتيار النصي. لهذا الغرض، نقدم مفهوم الشبكة متعددة الأوضاع والمتنوعة -- وهي شبكة قادرة على استقبال عدة أوضاع وتمثيلاتها تمكن المهام اللاحقة في عدة أوضاع. بصفة خاصة، نستكشف كيفية دمج الأوضاع بأفضل طريقة ممكنة بحيث يمكن الحفاظ على تمثيلات دقيقة للتيازرين البصري والصوتي، مع دمج النص في تضمين مشترك. بقيادة التنوع، نقدم أيضًا عملية جديدة للتفريغ (deflation) لكي يتم تطبيق الشبكات بسهولة على البيانات البصرية على شكل فيديو أو صورة ثابتة. نوضح كيف يمكن تطبيق مثل هذه الشبكات التي تم تدريبها على مجموعات كبيرة من بيانات الفيديو غير المصنفة في مهام الفيديو، الفيديو-النص، الصورة والصوت. مجهزين بهذه التمثيلات، نحقق أفضل الأداء حتى الآن في العديد من المقاييس الصعبة بما في ذلك UCF101، HMDB51، Kinetics600، AudioSet و ESC-50 عند المقارنة مع الأعمال السابقة ذات الإشراف الذاتي. نماذجنا متاحة للعامة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp