HyperAIHyperAI

Command Palette

Search for a command to run...

Anchor DETR: Query Design for Transformer-Based Object Detection

Yingming Wang Xiangyu Zhang Tong Yang Jian Sun

Zusammenfassung

In diesem Paper stellen wir eine neuartige Abfragedesign für objektdetektierende Transformer vor. In früheren Transformer-basierten Detektoren basieren die Objekt-Abfragen auf einer Menge lernbarer Embeddings. Diese lernbaren Embeddings besitzen jedoch keine klare physikalische Bedeutung, und es ist nicht möglich zu erklären, auf welchen Bereich sie sich konzentrieren werden. Die Optimierung ist schwierig, da jeder Vorhersageslot einer Objekt-Abfrage keinen spezifischen Modus besitzt. Mit anderen Worten: Jede Objekt-Abfrage richtet sich nicht auf einen bestimmten Bereich aus. Um diese Probleme zu lösen, basieren unsere Objekt-Abfragen in der vorgeschlagenen Methode auf Anchor-Punkten, die in CNN-basierten Detektoren weit verbreitet sind. Dadurch konzentriert sich jede Objekt-Abfrage auf Objekte in der Nähe des zugehörigen Anchor-Punkts. Darüber hinaus ermöglicht unser Abfragedesign die Vorhersage mehrerer Objekte an einer einzigen Position und löst so die Herausforderung „eine Region, mehrere Objekte“. Zusätzlich entwickeln wir eine Abwandlung des Aufmerksamkeitsmechanismus, die den Speicherbedarf reduziert, während sie vergleichbare oder sogar bessere Leistung als die Standard-Aufmerksamkeit in DETR erzielt. Dank des vorgeschlagenen Abfragedesigns und der Aufmerksamkeitsvariante erreicht der vorgestellte Detektor, den wir Anchor DETR nennen, eine bessere Leistung und läuft schneller als DETR, wobei nur 1/10 der Trainings-Epochen benötigt werden. Beispielsweise erzielt er auf dem MSCOCO-Datensatz eine AP von 44,2 bei 19 FPS, wenn mit dem ResNet50-DC5-Feature 50 Epochen trainiert werden. Umfangreiche Experimente auf der MSCOCO-Benchmark bestätigen die Wirksamkeit der vorgeschlagenen Methoden. Der Quellcode ist unter \url{https://github.com/megvii-research/AnchorDETR} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp