HyperAIHyperAI
vor 17 Tagen

HRFormer: High-Resolution Transformer für dichte Vorhersagen

Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen, Jingdong Wang
HRFormer: High-Resolution Transformer für dichte Vorhersagen
Abstract

Wir stellen einen High-Resolution Transformer (HRFormer) vor, der hochauflösende Darstellungen für Aufgaben der dichten Vorhersage lernt, im Gegensatz zum ursprünglichen Vision Transformer, der niedrigauflösende Darstellungen erzeugt und hohe Speicher- sowie Rechenkosten verursacht. Wir nutzen die mehrschichtige parallele Architektur, die in hochauflösenden konvolutionellen Netzwerken (HRNet) eingeführt wurde, zusammen mit einer lokalen Fenster- Selbst-Attention, die die Selbst-Attention über kleine, nicht überlappende Bildfenster durchführt, um die Effizienz im Hinblick auf Speicherbedarf und Rechenkosten zu verbessern. Zusätzlich integrieren wir eine Konvolution in den Feed-Forward-Netzwerk-Teil (FFN), um den Informationsaustausch zwischen den getrennten Bildfenstern zu ermöglichen. Wir zeigen die Wirksamkeit des High-Resolution Transformers sowohl bei der menschlichen Pose-Schätzung als auch bei der semantischen Segmentierung. Beispielsweise erreicht HRFormer auf der COCO-Pose-Schätzung eine Verbesserung um 1,3 AP gegenüber dem Swin-Transformer, wobei lediglich 50 % weniger Parameter und 30 % weniger FLOPs benötigt werden. Der Quellcode ist verfügbar unter: https://github.com/HRNet/HRFormer.