HyperAIHyperAI

Command Palette

Search for a command to run...

Recurrent Glimpse-basierter Decoder für die Erkennung mit Transformer

Zhe Chen Jing Zhang Dacheng Tao

Zusammenfassung

Obwohl die Detektion mit Transformer (DETR) zunehmend an Beliebtheit gewinnt, erfordert deren Modellierung globaler Aufmerksamkeit eine äußerst lange Trainingsdauer, um eine ansprechende Detektionsleistung zu erreichen. Im Gegensatz zu bestehenden Studien, die sich hauptsächlich auf fortschrittliche Merkmals- oder Embedding-Entwürfe konzentrieren, um das Trainingsproblem zu bewältigen, weisen wir darauf hin, dass die auf Region-of-Interest (RoI) basierende Detektionsverfeinerung die Trainingsdiffikultät bei DETR-Methoden leicht reduzieren kann. Ausgehend davon stellen wir in diesem Artikel einen neuen REcurrent Glimpse-basierten decOder (REGO) vor. Insbesondere nutzt REGO eine mehrstufige rekursive Verarbeitungsstruktur, um die Aufmerksamkeit von DETR schrittweise präziser auf vordergrundorientierte Objekte zu fokussieren. In jeder Verarbeitungsstufe werden visuelle Merkmale als Glimps-Features aus RoIs extrahiert, wobei die Umrandungsboxen der vorherigen Stufe erweitert werden. Anschließend wird ein auf Glimps-Features basierender Decoder eingeführt, der auf der Grundlage sowohl der Glimps-Features als auch der Aufmerksamkeitsmodellierungsergebnisse der vorherigen Stufe verfeinerte Detektionsergebnisse liefert. In der Praxis lässt sich REGO problemlos in etablierte DETR-Varianten integrieren, ohne deren vollständig end-to-end-Trainings- und Inferenzpfade zu beeinträchtigen. Insbesondere ermöglicht REGO, dass Deformable DETR auf dem MSCOCO-Datensatz eine AP von 44,8 erreicht – bereits nach nur 36 Trainings-Epochen, verglichen mit der ersten DETR und Deformable DETR, die jeweils 500 bzw. 50 Epochen benötigen, um vergleichbare Leistung zu erzielen. Experimente zeigen zudem, dass REGO die Leistung verschiedener DETR-Detektoren bei gleichbleibenden Einstellungen von 50 Trainings-Epochen konsequent um bis zu 7 % relativ steigert. Der Quellcode ist über https://github.com/zhechen/Deformable-DETR-REGO verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp