HyperAIHyperAI

Command Palette

Search for a command to run...

HRFormer: High-Resolution Transformer für dichte Vorhersagen

Yuhui Yuan Rao Fu Lang Huang Weihong Lin Chao Zhang Xilin Chen Jingdong Wang

Zusammenfassung

Wir stellen einen High-Resolution Transformer (HRFormer) vor, der hochauflösende Darstellungen für Aufgaben der dichten Vorhersage lernt, im Gegensatz zum ursprünglichen Vision Transformer, der niedrigauflösende Darstellungen erzeugt und hohe Speicher- sowie Rechenkosten verursacht. Wir nutzen die mehrschichtige parallele Architektur, die in hochauflösenden konvolutionellen Netzwerken (HRNet) eingeführt wurde, zusammen mit einer lokalen Fenster- Selbst-Attention, die die Selbst-Attention über kleine, nicht überlappende Bildfenster durchführt, um die Effizienz im Hinblick auf Speicherbedarf und Rechenkosten zu verbessern. Zusätzlich integrieren wir eine Konvolution in den Feed-Forward-Netzwerk-Teil (FFN), um den Informationsaustausch zwischen den getrennten Bildfenstern zu ermöglichen. Wir zeigen die Wirksamkeit des High-Resolution Transformers sowohl bei der menschlichen Pose-Schätzung als auch bei der semantischen Segmentierung. Beispielsweise erreicht HRFormer auf der COCO-Pose-Schätzung eine Verbesserung um 1,3 AP gegenüber dem Swin-Transformer, wobei lediglich 50 % weniger Parameter und 30 % weniger FLOPs benötigt werden. Der Quellcode ist verfügbar unter: https://github.com/HRNet/HRFormer.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp