HyperAIHyperAI
vor 17 Tagen

Frozene Transformers in Sprachmodellen sind effektive visuelle Kodierschichten

Ziqi Pang, Ziyang Xie, Yunze Man, Yu-Xiong Wang
Frozene Transformers in Sprachmodellen sind effektive visuelle Kodierschichten
Abstract

Diese Arbeit zeigt, dass große Sprachmodelle (LLMs), obwohl sie ausschließlich auf textuellen Daten trainiert wurden, überraschend leistungsfähige Encoder für rein visuelle Aufgaben sind, selbst wenn keine Sprache zur Verfügung steht. Noch aufschlussreicher ist, dass dies durch eine einfache, bisher jedoch übersehene Strategie erreicht werden kann: die Verwendung eines gefrorenen Transformer-Blocks aus vortrainierten LLMs als grundlegende Encoder-Schicht zur direkten Verarbeitung visueller Tokens. Unser Ansatz erweitert die Grenzen der Nutzung von LLMs für Aufgaben im Bereich des maschinellen Sehens und weicht signifikant von etablierten Praktiken ab, die typischerweise eine multimodale Vision-Sprache-Setup mit entsprechenden Sprachprompts, Eingaben oder Ausgaben erfordern. Wir demonstrieren, dass unsere Methode die Leistung konsistent auf einer breiten Palette von Aufgaben verbessert, darunter reine 2D- und 3D-Visuellerkennungsaufgaben (z. B. Bild- und Punktwolkenklassifikation), zeitliche Modellierungsaufgaben (z. B. Aktionserkennung), nicht-semantische Aufgaben (z. B. Bewegungsprognose) sowie multimodale Aufgaben (z. B. 2D/3D visuelle Fragebeantwortung und Bild-Text-Retrieval). Diese Verbesserungen erweisen sich als ein allgemeines Phänomen, das sich auf verschiedene Arten von LLMs (z. B. LLaMA und OPT) und unterschiedliche Transformer-Blöcke innerhalb dieser Modelle übertragen lässt. Zusätzlich formulieren wir die Hypothese der Informationsfilterung, um die Wirksamkeit vortrainierter LLMs im visuellen Encoding zu erklären: Die vortrainierten Transformer-Blöcke identifizieren informative visuelle Tokens und verstärken deren Einfluss weiterhin. Diese Hypothese wird empirisch gestützt durch die Beobachtung, dass die Merkmalsaktivierung nach der Training mit LLM-Transformer-Blöcken eine stärkere Fokussierung auf relevante Regionen zeigt. Wir hoffen, dass unsere Arbeit neue Perspektiven auf die Nutzung von LLMs eröffnet und unser Verständnis ihrer zugrundeliegenden Mechanismen vertieft. Der Quellcode ist unter https://github.com/ziqipang/LM4VisualEncoding verfügbar.