SERE: Untersuchung der Merkmals-Selbstbeziehung für selbstüberwachte Transformer

Die Entwicklung von Darstellungen mittels selbstüberwachtem Lernen für konvolutionale Netzwerke (CNN) hat sich für visuelle Aufgaben als wirksam erwiesen. Als Alternative zu CNN weisen Vision-Transformer (ViT) aufgrund ihrer räumlichen Selbst-Attention und kanalbasierten Feedforward-Netzwerke eine starke Repräsentationsfähigkeit auf. Neuere Arbeiten zeigen, dass selbstüberwachtes Lernen das enorme Potenzial von ViT freisetzen kann. Dennoch folgen die meisten Ansätze selbstüberwachten Strategien, die ursprünglich für CNN entwickelt wurden, beispielsweise der Unterscheidung von einzelnen Datenbeispielen, wobei jedoch die spezifischen Eigenschaften von ViT vernachlässigt werden. Wir beobachten, dass die Modellierung von Beziehungen entlang räumlicher und kanalbasierter Dimensionen ViT von anderen Architekturen unterscheidet. Um diese Eigenschaft zu stärken, untersuchen wir eine neue Methode namens Feature Self-RElation (SERE) zur selbstüberwachten Ausbildung von ViT. Konkret nutzen wir nicht allein die Merkmals-Embeddings aus mehreren Ansichten für das selbstüberwachte Lernen, sondern berücksichtigen stattdessen die Merkmals-Selbstbeziehungen – also räumliche und kanalbasierte Selbstbeziehungen – als Grundlage des Lernprozesses. Das auf Selbstbeziehungen basierende Lernen verstärkt die Fähigkeit von ViT, Beziehungen zu modellieren, was zu stärkeren Repräsentationen führt, die die Leistung auf mehreren nachgeschalteten Aufgaben stabil verbessern. Unser Quellcode ist öffentlich verfügbar unter: https://github.com/MCG-NKU/SERE.