HyperAIHyperAI
vor 17 Tagen

Recurrent Glimpse-basierter Decoder für die Erkennung mit Transformer

Zhe Chen, Jing Zhang, Dacheng Tao
Recurrent Glimpse-basierter Decoder für die Erkennung mit Transformer
Abstract

Obwohl die Detektion mit Transformer (DETR) zunehmend an Beliebtheit gewinnt, erfordert deren Modellierung globaler Aufmerksamkeit eine äußerst lange Trainingsdauer, um eine ansprechende Detektionsleistung zu erreichen. Im Gegensatz zu bestehenden Studien, die sich hauptsächlich auf fortschrittliche Merkmals- oder Embedding-Entwürfe konzentrieren, um das Trainingsproblem zu bewältigen, weisen wir darauf hin, dass die auf Region-of-Interest (RoI) basierende Detektionsverfeinerung die Trainingsdiffikultät bei DETR-Methoden leicht reduzieren kann. Ausgehend davon stellen wir in diesem Artikel einen neuen REcurrent Glimpse-basierten decOder (REGO) vor. Insbesondere nutzt REGO eine mehrstufige rekursive Verarbeitungsstruktur, um die Aufmerksamkeit von DETR schrittweise präziser auf vordergrundorientierte Objekte zu fokussieren. In jeder Verarbeitungsstufe werden visuelle Merkmale als Glimps-Features aus RoIs extrahiert, wobei die Umrandungsboxen der vorherigen Stufe erweitert werden. Anschließend wird ein auf Glimps-Features basierender Decoder eingeführt, der auf der Grundlage sowohl der Glimps-Features als auch der Aufmerksamkeitsmodellierungsergebnisse der vorherigen Stufe verfeinerte Detektionsergebnisse liefert. In der Praxis lässt sich REGO problemlos in etablierte DETR-Varianten integrieren, ohne deren vollständig end-to-end-Trainings- und Inferenzpfade zu beeinträchtigen. Insbesondere ermöglicht REGO, dass Deformable DETR auf dem MSCOCO-Datensatz eine AP von 44,8 erreicht – bereits nach nur 36 Trainings-Epochen, verglichen mit der ersten DETR und Deformable DETR, die jeweils 500 bzw. 50 Epochen benötigen, um vergleichbare Leistung zu erzielen. Experimente zeigen zudem, dass REGO die Leistung verschiedener DETR-Detektoren bei gleichbleibenden Einstellungen von 50 Trainings-Epochen konsequent um bis zu 7 % relativ steigert. Der Quellcode ist über https://github.com/zhechen/Deformable-DETR-REGO verfügbar.