Vous ne regardez qu'une seule séquence : repenser le Transformer en vision à travers la détection d'objets

Peut-on faire reconnaître des objets 2D et des régions à partir d’une perspective purement séquentielle, en traitement séquence-à-séquence, avec une connaissance minimale de la structure spatiale 2D ? Pour répondre à cette question, nous proposons YOLOS (You Only Look at One Sequence), une série de modèles de détection d’objets fondés sur le Vision Transformer classique, avec le moins de modifications possibles, ainsi que des priorités régionales et des biais inductifs liés à la tâche cible. Nous constatons que YOLOS pré-entraînés sur le jeu de données ImageNet-1k de taille moyenne parviennent déjà à atteindre des performances très compétitives sur le défi difficile de la détection d’objets COCO. Par exemple, YOLOS-Base, directement adapté de l’architecture BERT-Base, obtient un score de 42,0 box AP sur le jeu de validation COCO. Nous discutons également des impacts et des limites des stratégies actuelles de pré-entraînement ainsi que des stratégies d’échelle des modèles pour les Transformers en vision, à travers l’étude de YOLOS. Le code et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/hustvl/YOLOS.