HyperAIHyperAI
vor 19 Tagen

You Only Look at One Sequence: Transformer in der Bildverarbeitung neu gedacht durch Objekterkennung

Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu
You Only Look at One Sequence: Transformer in der Bildverarbeitung neu gedacht durch Objekterkennung
Abstract

Kann ein Transformer aus einer rein sequenzbasierten Perspektive eine 2D-Objekt- und Regionserkennung ohne tiefgehendes Wissen über die 2D-raumliche Struktur durchführen? Um diese Frage zu beantworten, präsentieren wir You Only Look at One Sequence (YOLOS), eine Reihe von Objektdetektionsmodellen, die auf dem grundlegenden Vision Transformer basieren und nur minimale Modifikationen, regionale Vorwissen sowie induktive Voreingenommenheiten der Zielaufgabe erfordern. Wir stellen fest, dass YOLOS, vortrainiert auf dem mittelgroßen ImageNet-1k-Datensatz, bereits eine beachtenswerte Leistung auf dem anspruchsvollen COCO-Objektdetektionsbenchmark erzielt – beispielsweise erreicht YOLOS-Base, das direkt aus der BERT-Base-Architektur abgeleitet ist, eine Box-AP von 42,0 auf dem COCO-Validierungssatz. Zudem diskutieren wir die Auswirkungen sowie die Grenzen aktueller Vortrainingsstrategien und Modellvergrößerungsstrategien für Transformer in der Bildverarbeitung anhand von YOLOS. Der Quellcode und vortrainierte Modelle sind unter https://github.com/hustvl/YOLOS verfügbar.