HyperAIHyperAI
vor 2 Monaten

Erkundung einfacher Vision Transformer-Backbones für die Objekterkennung

Li, Yanghao ; Mao, Hanzi ; Girshick, Ross ; He, Kaiming
Erkundung einfacher Vision Transformer-Backbones für die Objekterkennung
Abstract

Wir untersuchen den einfachen, nicht hierarchischen Vision Transformer (ViT) als Backbonenetzwerk für die Objekterkennung. Diese Architektur ermöglicht es, den ursprünglichen ViT für die Objekterkennung zu feinjustieren, ohne dass ein hierarchischer Backbone für das Vortrainieren neu entworfen werden muss. Mit minimalen Anpassungen zur Feinjustierung können unsere Detektoren mit einfacher Backbone wettbewerbsfähige Ergebnisse erzielen. Überraschenderweise beobachten wir: (i) es ist ausreichend, eine einfache Merkmalspyramide aus einer einzelnen Skalen-Merkmalskarte aufzubauen (ohne die übliche FPN-Design) und (ii) es ist ausreichend, Fensteraufmerksamkeit (ohne Verschiebung) zu verwenden, unterstützt durch sehr wenige Cross-Fenster-Propagation-Blöcke. Mit einfachen ViT-Backbones, die als Masked Autoencoders (MAE) vortrainiert wurden, kann unser Detektor, der ViTDet genannt wird, mit den bisher führenden Methoden konkurrieren, die alle auf hierarchischen Backbones basierten. Er erreicht bis zu 61,3 AP_box auf dem COCO-Datensatz unter Verwendung von ausschließlich ImageNet-1K-Vortrainierung. Wir hoffen, dass unsere Studie die Aufmerksamkeit auf Forschungen zu Detektoren mit einfacher Backbone lenken wird. Der Code für ViTDet ist in Detectron2 verfügbar.

Erkundung einfacher Vision Transformer-Backbones für die Objekterkennung | Neueste Forschungsarbeiten | HyperAI