Command Palette
Search for a command to run...
RTFormer: Effizientes Design für Echtzeit-Semantische Segmentierung mit Transformer
RTFormer: Effizientes Design für Echtzeit-Semantische Segmentierung mit Transformer
Jian Wang1∗ Chenhui Gou2∗ Qiman Wu1∗ Haocheng Feng1 Junyu Han1 Errui Ding1 Jingdong Wang1†
Zusammenfassung
Kürzlich haben transformerbasierte Netzwerke beeindruckende Ergebnisse in der semantischen Segmentierung gezeigt. Dennoch dominiert aufgrund des zeitaufwendigen Berechnungsmechanismus von Transformatoren in der Echtzeit-Semantischen Segmentierung weiterhin die rein CNN-basierten Ansätze. Wir schlagen RTFormer vor, einen effizienten Dual-Resolution-Transformer für die Echtzeit-Semantische Segmentierung, der eine bessere Balance zwischen Leistung und Effizienz als CNN-basierte Modelle erreicht. Um eine hohe Inferenz-Effizienz auf GPU-ähnlichen Geräten zu gewährleisten, nutzt unser RTFormer eine GPU-freundliche Aufmerksamkeit mit linearer Komplexität und verzichtet auf den Multi-Head-Mechanismus. Darüber hinaus stellen wir fest, dass die Cross-Resolution-Aufmerksamkeit effizienter ist, um globale Kontextinformationen für die Hochauflösungs-Zweige durch die Verbreitung des aus den Niederauflösungs-Zweigen gelernten Wissens zu sammeln. Ausführliche Experimente auf gängigen Benchmarks belegen die Effektivität unseres vorgeschlagenen RTFormers; er erreicht den aktuellen Stand der Technik (state-of-the-art) auf Cityscapes, CamVid und COCOStuff und zeigt vielversprechende Ergebnisse auf ADE20K. Der Quellcode ist unter PaddleSeg verfügbar: https://github.com/PaddlePaddle/PaddleSeg.