vor 8 Monaten

Zusammenfassung

Wir untersuchen den einfachen, nicht hierarchischen Vision Transformer (ViT) als Backbonenetzwerk für die Objekterkennung. Diese Architektur ermöglicht es, den ursprünglichen ViT für die Objekterkennung zu feinjustieren, ohne dass ein hierarchischer Backbone für das Vortrainieren neu entworfen werden muss. Mit minimalen Anpassungen zur Feinjustierung können unsere Detektoren mit einfacher Backbone wettbewerbsfähige Ergebnisse erzielen. Überraschenderweise beobachten wir: (i) es ist ausreichend, eine einfache Merkmalspyramide aus einer einzelnen Skalen-Merkmalskarte aufzubauen (ohne die übliche FPN-Design) und (ii) es ist ausreichend, Fensteraufmerksamkeit (ohne Verschiebung) zu verwenden, unterstützt durch sehr wenige Cross-Fenster-Propagation-Blöcke. Mit einfachen ViT-Backbones, die als Masked Autoencoders (MAE) vortrainiert wurden, kann unser Detektor, der ViTDet genannt wird, mit den bisher führenden Methoden konkurrieren, die alle auf hierarchischen Backbones basierten. Er erreicht bis zu 61,3 AP_box auf dem COCO-Datensatz unter Verwendung von ausschließlich ImageNet-1K-Vortrainierung. Wir hoffen, dass unsere Studie die Aufmerksamkeit auf Forschungen zu Detektoren mit einfacher Backbone lenken wird. Der Code für ViTDet ist in Detectron2 verfügbar.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Erkundung einfacher Vision Transformer-Backbones für die Objekterkennung

Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Erkundung einfacher Vision Transformer-Backbones für die Objekterkennung

Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Erkundung einfacher Vision Transformer-Backbones für die Objekterkennung

Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters