HyperAIHyperAI

Command Palette

Search for a command to run...

You Only Look at One Sequence: Transformer in der Bildverarbeitung neu gedacht durch Objekterkennung

Yuxin Fang Bencheng Liao Xinggang Wang Jiemin Fang Jiyang Qi Rui Wu Jianwei Niu Wenyu Liu

Zusammenfassung

Kann ein Transformer aus einer rein sequenzbasierten Perspektive eine 2D-Objekt- und Regionserkennung ohne tiefgehendes Wissen über die 2D-raumliche Struktur durchführen? Um diese Frage zu beantworten, präsentieren wir You Only Look at One Sequence (YOLOS), eine Reihe von Objektdetektionsmodellen, die auf dem grundlegenden Vision Transformer basieren und nur minimale Modifikationen, regionale Vorwissen sowie induktive Voreingenommenheiten der Zielaufgabe erfordern. Wir stellen fest, dass YOLOS, vortrainiert auf dem mittelgroßen ImageNet-1k-Datensatz, bereits eine beachtenswerte Leistung auf dem anspruchsvollen COCO-Objektdetektionsbenchmark erzielt – beispielsweise erreicht YOLOS-Base, das direkt aus der BERT-Base-Architektur abgeleitet ist, eine Box-AP von 42,0 auf dem COCO-Validierungssatz. Zudem diskutieren wir die Auswirkungen sowie die Grenzen aktueller Vortrainingsstrategien und Modellvergrößerungsstrategien für Transformer in der Bildverarbeitung anhand von YOLOS. Der Quellcode und vortrainierte Modelle sind unter https://github.com/hustvl/YOLOS verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp