il y a 2 mois
Réflexion sur les Video ViTs : Tubes Vidéo Épars pour l'Apprentissage Conjoints d'Images et de Vidéos
Piergiovanni, AJ ; Kuo, Weicheng ; Angelova, Anelia

Résumé
Nous présentons une approche simple permettant de transformer un encodeur ViT en un modèle vidéo efficace, capable de traiter de manière fluide à la fois des images et des vidéos en entrée. En échantillonnant les entrées de manière éparses, le modèle est en mesure d'effectuer l'entraînement et l'inférence à partir de ces deux types d'entrées. Le modèle est facilement extensible et peut être adapté aux grands modèles ViT pré-entraînés sans nécessiter un réajustement complet. Ce modèle atteint des résultats d'état de l'art (SOTA) et le code sera mis à disposition sous licence open source.