HyperAIHyperAI

Command Palette

Search for a command to run...

Frozene Transformers in Sprachmodellen sind effektive visuelle Kodierschichten

Ziqi Pang Ziyang Xie Yunze Man Yu-Xiong Wang

Zusammenfassung

Diese Arbeit zeigt, dass große Sprachmodelle (LLMs), obwohl sie ausschließlich auf textuellen Daten trainiert wurden, überraschend leistungsfähige Encoder für rein visuelle Aufgaben sind, selbst wenn keine Sprache zur Verfügung steht. Noch aufschlussreicher ist, dass dies durch eine einfache, bisher jedoch übersehene Strategie erreicht werden kann: die Verwendung eines gefrorenen Transformer-Blocks aus vortrainierten LLMs als grundlegende Encoder-Schicht zur direkten Verarbeitung visueller Tokens. Unser Ansatz erweitert die Grenzen der Nutzung von LLMs für Aufgaben im Bereich des maschinellen Sehens und weicht signifikant von etablierten Praktiken ab, die typischerweise eine multimodale Vision-Sprache-Setup mit entsprechenden Sprachprompts, Eingaben oder Ausgaben erfordern. Wir demonstrieren, dass unsere Methode die Leistung konsistent auf einer breiten Palette von Aufgaben verbessert, darunter reine 2D- und 3D-Visuellerkennungsaufgaben (z. B. Bild- und Punktwolkenklassifikation), zeitliche Modellierungsaufgaben (z. B. Aktionserkennung), nicht-semantische Aufgaben (z. B. Bewegungsprognose) sowie multimodale Aufgaben (z. B. 2D/3D visuelle Fragebeantwortung und Bild-Text-Retrieval). Diese Verbesserungen erweisen sich als ein allgemeines Phänomen, das sich auf verschiedene Arten von LLMs (z. B. LLaMA und OPT) und unterschiedliche Transformer-Blöcke innerhalb dieser Modelle übertragen lässt. Zusätzlich formulieren wir die Hypothese der Informationsfilterung, um die Wirksamkeit vortrainierter LLMs im visuellen Encoding zu erklären: Die vortrainierten Transformer-Blöcke identifizieren informative visuelle Tokens und verstärken deren Einfluss weiterhin. Diese Hypothese wird empirisch gestützt durch die Beobachtung, dass die Merkmalsaktivierung nach der Training mit LLM-Transformer-Blöcken eine stärkere Fokussierung auf relevante Regionen zeigt. Wir hoffen, dass unsere Arbeit neue Perspektiven auf die Nutzung von LLMs eröffnet und unser Verständnis ihrer zugrundeliegenden Mechanismen vertieft. Der Quellcode ist unter https://github.com/ziqipang/LM4VisualEncoding verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp