HyperAIHyperAI

Command Palette

Search for a command to run...

Vous ne regardez qu'une seule séquence : repenser le Transformer en vision à travers la détection d'objets

Yuxin Fang Bencheng Liao Xinggang Wang Jiemin Fang Jiyang Qi Rui Wu Jianwei Niu Wenyu Liu

Résumé

Peut-on faire reconnaître des objets 2D et des régions à partir d’une perspective purement séquentielle, en traitement séquence-à-séquence, avec une connaissance minimale de la structure spatiale 2D ? Pour répondre à cette question, nous proposons YOLOS (You Only Look at One Sequence), une série de modèles de détection d’objets fondés sur le Vision Transformer classique, avec le moins de modifications possibles, ainsi que des priorités régionales et des biais inductifs liés à la tâche cible. Nous constatons que YOLOS pré-entraînés sur le jeu de données ImageNet-1k de taille moyenne parviennent déjà à atteindre des performances très compétitives sur le défi difficile de la détection d’objets COCO. Par exemple, YOLOS-Base, directement adapté de l’architecture BERT-Base, obtient un score de 42,0 box AP sur le jeu de validation COCO. Nous discutons également des impacts et des limites des stratégies actuelles de pré-entraînement ainsi que des stratégies d’échelle des modèles pour les Transformers en vision, à travers l’étude de YOLOS. Le code et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/hustvl/YOLOS.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp