HyperAIHyperAI
vor 2 Monaten

Salience DETR: Verbesserung des Detection Transformers durch hierarchische Salienzfilterungsoptimierung

Hou, Xiuquan ; Liu, Meiqin ; Zhang, Senlin ; Wei, Ping ; Chen, Badong
Salience DETR: Verbesserung des Detection Transformers durch hierarchische Salienzfilterungsoptimierung
Abstract

DETR-ähnliche Methoden haben die Detektionsleistung in einem end-to-end Prozess erheblich verbessert. Die gängigen zweistufigen Frameworks führen eine dichte Selbst-Aufmerksamkeit (self-attention) durch und wählen einen Teil der Abfragen für eine spärliche Quer-Aufmerksamkeit (cross-attention) aus, was zwar effektiv zur Leistungssteigerung beiträgt, aber auch einen hohen Rechenaufwand und eine starke Abhängigkeit von einer stabilen Abfrageauswahl mit sich bringt. In dieser Arbeit wird gezeigt, dass suboptimale zweistufige Selektionsstrategien aufgrund der Missstimmung zwischen ausgewählten Abfragen und Objekten bei der zweistufigen Initialisierung zu Skalenverzerrungen und Redundanzen führen. Um diese Probleme zu lösen, schlagen wir eine hierarchische Salienzfiltierung und -verfeinerung vor, die die Transformer-Kodierung nur auf gefilterte diskriminierende Abfragen durchführt, um einen besseren Kompromiss zwischen rechnerischer Effizienz und Genauigkeit zu erzielen. Der Filterprozess überwindet die Skalenverzerrung durch ein neues skalenunabhängiges Salienzaufsichtssignal (supervision). Um das semantische Fehlanpassung unter den Abfragen auszugleichen, führen wir detaillierte Abfrageverfeinerungsmoduln für eine stabile zweistufige Initialisierung ein. Auf Basis dieser Verbesserungen erreicht das vorgeschlagene Salience DETR erhebliche Leistungssteigerungen von +4,0 % AP, +0,2 % AP und +4,4 % AP auf drei anspruchsvollen taskspezifischen Detektionsdatensätzen sowie 49,2 % AP auf COCO 2017 mit weniger FLOPs. Der Code ist unter https://github.com/xiuqhou/Salience-DETR verfügbar.