CCNet: Kreuz-Aufmerksamkeit für semantische Segmentierung

Kontextuelle Informationen sind für visuelle Verständnisprobleme wie semantische Segmentierung und Objekterkennung von entscheidender Bedeutung. Wir schlagen ein Criss-Cross-Netzwerk (CCNet) vor, um kontextuelle Informationen des gesamten Bildes auf sehr effektive und effiziente Weise zu gewinnen. Konkret sammelt ein neuartiges Criss-Cross-Attention-Modul für jeden Pixel die kontextuellen Informationen aller Pixel auf dessen Kreuzpfad. Durch eine weitere rekurrente Operation kann jeder Pixel schließlich die Abhängigkeiten des gesamten Bildes erfassen. Darüber hinaus wird ein kategoriekonsistenter Verlust vorgeschlagen, um das Criss-Cross-Attention-Modul dazu anzuregen, differenziertere Merkmale zu erzeugen. Insgesamt zeichnet sich CCNet durch folgende Vorzüge aus: 1) GPU-Speicherfreundlichkeit. Im Vergleich zum Non-Local-Block benötigt der vorgeschlagene rekurrente Criss-Cross-Attention-Modul nur etwa 11-mal weniger GPU-Speicher. 2) Hohe Recheneffizienz. Die rekurrente Criss-Cross-Aufmerksamkeit reduziert die FLOPs (floating point operations per second) um etwa 85% im Vergleich zum Non-Local-Block. 3) Spitzenleistung. Wir führen umfangreiche Experimente auf Benchmarks für semantische Segmentierung durch, darunter Cityscapes, ADE20K, das Benchmark für die menschliche Analyse LIP sowie die Benchmarks für Instanzsegmentierung COCO und Videosegmentierung CamVid. Insbesondere erreicht unser CCNet mIoU-Werte von 81,9%, 45,76% und 55,47% auf den Testsets von Cityscapes, dem Validierungsset von ADE20K und dem Validierungsset von LIP, was neue Spitzenwerte darstellt. Die Quellcodes sind unter \url{https://github.com/speedinghzl/CCNet} verfügbar.