HyperAIHyperAI
vor 17 Tagen

Neuüberlegung und Verbesserung der relativen Positionscodierung für Vision Transformer

Kan Wu, Houwen Peng, Minghao Chen, Jianlong Fu, Hongyang Chao
Neuüberlegung und Verbesserung der relativen Positionscodierung für Vision Transformer
Abstract

Relative Position Encoding (RPE) ist für Transformer von entscheidender Bedeutung, um die Reihenfolge der Eingabetoken in einer Sequenz zu erfassen. Ihre Wirksamkeit ist in der natürlichen Sprachverarbeitung bereits allgemein nachgewiesen. In der Computer Vision hingegen wurde ihre Effektivität bisher nicht umfassend untersucht und bleibt sogar umstritten – beispielsweise, ob Relative Position Encoding genauso gut funktioniert wie Absolute Position Encoding. Um diese Frage zu klären, analysieren wir zunächst bestehende Methoden zur relativen Positionscodierung und bewerten deren Vor- und Nachteile bei der Anwendung in Vision Transformers. Anschließend stellen wir neue, speziell für zweidimensionale Bilder entwickelte Relative Position Encoding-Methoden vor, die wir image RPE (iRPE) nennen. Unsere Ansätze berücksichtigen die modulierte Darstellung der räumlichen Richtung sowie die Interaktionen zwischen Queries und relativen Positionsembeddings im Selbst-Attention-Mechanismus. Die vorgeschlagenen iRPE-Methoden sind einfach und leichtgewichtig und lassen sich problemlos in bestehende Transformer-Blöcke integrieren. Experimente zeigen, dass allein durch die Einführung dieser Codierungsverfahren DeiT und DETR jeweils stabil bis zu 1,5 % (Top-1-Accuracy) und 1,3 % (mAP) auf ImageNet und COCO gegenüber ihren ursprünglichen Versionen verbessern, ohne dass zusätzliche Hyperparameter wie Lernrate oder Weight Decay angepasst werden müssen. Auch unsere Ablation- und Analyse-Studien ergeben interessante Erkenntnisse, einige davon widersprechen sogar früheren Annahmen. Der Quellcode und die Modelle sind unter https://github.com/microsoft/Cream/tree/main/iRPE öffentlich verfügbar.