HyperAIHyperAI
vor 3 Monaten

Neubewertung von Decodern für Transformer-basierte semantische Segmentierung: Ein Kompressionsperspektive

Qishuai Wen, Chun-Guang Li
Neubewertung von Decodern für Transformer-basierte semantische Segmentierung: Ein Kompressionsperspektive
Abstract

Zustands-der-Kunst-Methoden für Transformer-basierte semantische Segmentierung verwenden typischerweise Transformer-Decodierer, die dazu dienen, zusätzliche Embeddings aus Bild-Embeddings mittels Cross-Attention zu extrahieren, entweder oder beide Embedding-Typen mittels Self-Attention zu verfeinern und schließlich die Bild-Embeddings durch eine Dot-Product-Operation auf die zusätzlichen Embeddings abzubilden. Trotz ihrer bemerkenswerten Erfolge fehlen diesen empirischen Architekturen bisher theoretische Begründungen oder Interpretationen, was potenzielle, prinzipienbasierte Verbesserungen behindert. In diesem Artikel argumentieren wir, dass es fundamentale Verbindungen zwischen semantischer Segmentierung und Kompression gibt, insbesondere zwischen Transformer-Decodern und der Hauptkomponentenanalyse (Principal Component Analysis, PCA). Aus dieser Perspektive leiten wir einen transparenten, vollständig auf Aufmerksamkeit basierenden Decoder für prinzipienbasierte semantische Segmentierung – DEPICT (DEcoder for PrIncipled semantiC segemenTation) – ab, dessen Interpretation wie folgt lautet: 1) Der Self-Attention-Operator verfeinert die Bild-Embeddings, um einen idealen Hauptunterraum zu konstruieren, der der Supervision entspricht und die größtmögliche Informationsmenge beibehält; 2) Der Cross-Attention-Operator sucht nach einer Niedrigrang-Approximation der verfeinerten Bild-Embeddings, die als orthonormale Basis des Hauptunterraums erwartet wird und den vorgegebenen Klassen entspricht; 3) Die Dot-Product-Operation erzeugt kompakte Darstellungen der Bild-Embeddings in Form von Segmentierungsmasken. Experimente auf dem Datensatz ADE20K zeigen, dass DEPICT konsistent seine schwarze-Box-Entsprechung, den Segmenter, übertrifft und zudem leichtgewichtig und robuster ist.