vor 11 Tagen

Integrale Migration vortrainierter Transformer-Encoder-Decoder für die visuelle Objekterkennung

Feng Liu, Xiaosong Zhang, Zhiliang Peng, Zonghao Guo, Fang Wan, Xiangyang Ji, Qixiang Ye

Abstract

Moderne Objektdetektoren haben die Vorteile von Backbone-Netzwerken genutzt, die auf großen Datensätzen vortrainiert wurden. Andere Komponenten wie der Detektorkopf und das Feature-Pyramid-Netzwerk (FPN) bleiben jedoch weiterhin von Grund auf trainiert, was die volle Ausnutzung des Potenzials von Repräsentationsmodellen einschränkt. In dieser Studie schlagen wir vor, vortrainierte Transformer-Encoder-Decoder (imTED) integral zu übertragen, um einen Detektor zu konstruieren, der eine „vollständig vortrainierte“ Merkmalsextraktionspfad aufweist, wodurch die Generalisierungsfähigkeit der Detektoren maximiert wird. Die wesentlichen Unterschiede zwischen imTED und dem Baseline-Detektor liegen in zweierlei: (1) der Übertragung des vortrainierten Transformer-Decoders auf den Detektorkopf unter gleichzeitiger Entfernung des zufällig initialisierten FPN aus der Merkmalsextraktionspfad; und (2) der Einführung eines Multi-Scale-Feature-Modulators (MFM), um die Skalenanpassungsfähigkeit zu verbessern. Diese Gestaltung reduziert nicht nur signifikant die Anzahl zufällig initialisierter Parameter, sondern verbindet zielgerichtet die Detektortrainingsphase mit dem Prozess der Repräsentationslernung. Experimente auf dem MS COCO-Datensatz für Objektdetektion zeigen, dass imTED seine Konkurrenten konsistent um ca. 2,4 AP übertrifft. Ohne zusätzliche technische Spielereien steigert imTED die State-of-the-Art-Leistung bei Few-Shot-Objektdetektion um bis zu 7,6 AP. Der Quellcode ist unter https://github.com/LiewFeng/imTED verfügbar.