HyperAIHyperAI

Command Palette

Search for a command to run...

Neubewertung von Decodern für Transformer-basierte semantische Segmentierung: Ein Kompressionsperspektive

Qishuai Wen Chun-Guang Li

Zusammenfassung

Zustands-der-Kunst-Methoden für Transformer-basierte semantische Segmentierung verwenden typischerweise Transformer-Decodierer, die dazu dienen, zusätzliche Embeddings aus Bild-Embeddings mittels Cross-Attention zu extrahieren, entweder oder beide Embedding-Typen mittels Self-Attention zu verfeinern und schließlich die Bild-Embeddings durch eine Dot-Product-Operation auf die zusätzlichen Embeddings abzubilden. Trotz ihrer bemerkenswerten Erfolge fehlen diesen empirischen Architekturen bisher theoretische Begründungen oder Interpretationen, was potenzielle, prinzipienbasierte Verbesserungen behindert. In diesem Artikel argumentieren wir, dass es fundamentale Verbindungen zwischen semantischer Segmentierung und Kompression gibt, insbesondere zwischen Transformer-Decodern und der Hauptkomponentenanalyse (Principal Component Analysis, PCA). Aus dieser Perspektive leiten wir einen transparenten, vollständig auf Aufmerksamkeit basierenden Decoder für prinzipienbasierte semantische Segmentierung – DEPICT (DEcoder for PrIncipled semantiC segemenTation) – ab, dessen Interpretation wie folgt lautet: 1) Der Self-Attention-Operator verfeinert die Bild-Embeddings, um einen idealen Hauptunterraum zu konstruieren, der der Supervision entspricht und die größtmögliche Informationsmenge beibehält; 2) Der Cross-Attention-Operator sucht nach einer Niedrigrang-Approximation der verfeinerten Bild-Embeddings, die als orthonormale Basis des Hauptunterraums erwartet wird und den vorgegebenen Klassen entspricht; 3) Die Dot-Product-Operation erzeugt kompakte Darstellungen der Bild-Embeddings in Form von Segmentierungsmasken. Experimente auf dem Datensatz ADE20K zeigen, dass DEPICT konsistent seine schwarze-Box-Entsprechung, den Segmenter, übertrifft und zudem leichtgewichtig und robuster ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp