HyperAIHyperAI
vor 2 Monaten

RTFormer: Effizientes Design für Echtzeit-Semantische Segmentierung mit Transformer

Jian Wang; Chenhui Gou; Qiman Wu; Haocheng Feng; Junyu Han; Errui Ding; Jingdong Wang
RTFormer: Effizientes Design für Echtzeit-Semantische Segmentierung mit Transformer
Abstract

Kürzlich haben transformerbasierte Netzwerke beeindruckende Ergebnisse in der semantischen Segmentierung gezeigt. Dennoch dominiert aufgrund des zeitaufwendigen Berechnungsmechanismus von Transformatoren in der Echtzeit-Semantischen Segmentierung weiterhin die rein CNN-basierten Ansätze. Wir schlagen RTFormer vor, einen effizienten Dual-Resolution-Transformer für die Echtzeit-Semantische Segmentierung, der eine bessere Balance zwischen Leistung und Effizienz als CNN-basierte Modelle erreicht. Um eine hohe Inferenz-Effizienz auf GPU-ähnlichen Geräten zu gewährleisten, nutzt unser RTFormer eine GPU-freundliche Aufmerksamkeit mit linearer Komplexität und verzichtet auf den Multi-Head-Mechanismus. Darüber hinaus stellen wir fest, dass die Cross-Resolution-Aufmerksamkeit effizienter ist, um globale Kontextinformationen für die Hochauflösungs-Zweige durch die Verbreitung des aus den Niederauflösungs-Zweigen gelernten Wissens zu sammeln. Ausführliche Experimente auf gängigen Benchmarks belegen die Effektivität unseres vorgeschlagenen RTFormers; er erreicht den aktuellen Stand der Technik (state-of-the-art) auf Cityscapes, CamVid und COCOStuff und zeigt vielversprechende Ergebnisse auf ADE20K. Der Quellcode ist unter PaddleSeg verfügbar: https://github.com/PaddlePaddle/PaddleSeg.

RTFormer: Effizientes Design für Echtzeit-Semantische Segmentierung mit Transformer | Neueste Forschungsarbeiten | HyperAI