Aufmerksamkeitsgesteuertes Einheitliches Netzwerk für Panoramasegmentierung

Dieses Papier untersucht die panoptische Segmentierung, eine kürzlich vorgeschlagene Aufgabe, die Vordergrundobjekte (FG) auf Instanz-Ebene und Hintergrundinhalte (BG) auf semantischer Ebene segmentiert. Bestehende Methoden haben diese beiden Probleme in der Regel getrennt behandelt, aber in dieser Arbeit legen wir das zugrundeliegende Verhältnis zwischen ihnen offen, insbesondere dass Vordergrundobjekte ergänzende Hinweise bieten, um das Verständnis des Hintergrunds zu unterstützen. Unser Ansatz, der als Aufmerksamkeitsgeleitete Einheitliches Netzwerk (AUNet) bezeichnet wird, ist ein einheitlicher Rahmen mit zwei Zweigen für die gleichzeitige Segmentierung von FG und BG. Zwei Arten von Aufmerksamkeiten werden dem BG-Zweig hinzugefügt: RPN und FG-Segmentierungsmaske, welche jeweils objektbezogene und pixelbasierte Aufmerksamkeiten liefern. Unser Ansatz kann auf verschiedene Backbones verallgemeinert werden und erzielt bei beiden Segmentierungsaufgaben – FG und BG – konstante Genauigkeitsverbesserungen. Darüber hinaus legt er neue Standards sowohl im MS-COCO-Benchmark (46,5 % PQ) als auch im Cityscapes-Benchmark (59,0 % PQ) fest.注释:- "panoptic segmentation" 翻译为 "panoptische Segmentierung"- "foreground objects" 翻译为 "Vordergrundobjekte"- "background contents" 翻译为 "Hintergrundinhalte"- "Attention-guided Unified Network" 翻译为 "Aufmerksamkeitsgeleitetes Einheitliches Netzwerk" (AUNet)- "RPN" 保留原样,因为这是常见的技术缩写- "segmentation mask" 翻译为 "Segmentierungsmaske"- "backbones" 翻译为 "Backbones", 因为在德语中通常也使用这个术语- "MS-COCO" 和 "Cityscapes" 保留原样,因为这些是特定的数据集名称- "PQ" 保留原样,因为这是特定的性能指标缩写(Panoptic Quality)