HyperAIHyperAI
منذ 2 أشهر

إعادة التفكير في شبكات ViTs الفيديوية: أنابيب الفيديو النادرة للتعلم المشترك للصور والفيديو

Piergiovanni, AJ ; Kuo, Weicheng ; Angelova, Anelia
إعادة التفكير في شبكات ViTs الفيديوية: أنابيب الفيديو النادرة للتعلم المشترك للصور والفيديو
الملخص

نقدم نهجًا بسيطًا يمكن من خلاله تحويل مُشفِّر ViT إلى نموذج فيديو فعّال، قادر على العمل بسلاسة مع مدخلات الصور والفيديوهات. من خلال أخذ عينات مدخلات متباعدة، يكون النموذج قادرًا على التدريب والاستدلال من كلا المدخلات. يتميز النموذج بمرونته وقابليته للتوسع، ويمكن تكييفه مع ViTs المدربة مسبقًا على نطاق واسع دون الحاجة إلى إعادة تدريب كامل. حقق النموذج أفضل النتائج الحالية (SOTA)، وسيتم إتاحة الكود كمصدر مفتوح.