17日前

言語モデルにおけるフローズンTransformerは、効果的な視覚エンコーダ層である

Ziqi Pang, Ziyang Xie, Yunze Man, Yu-Xiong Wang

要約

本論文は、大規模言語モデル（LLM）がテキストデータのみで訓練されているにもかかわらず、言語を一切用いない状況下において、純粋な視覚タスクに対して驚くほど強力なエンコーダーとして機能することを明らかにした。さらに興味深いのは、事前学習済みLLMから得られる固定されたTransformerブロックを、視覚トークンを直接処理する構成エンコーダーレイヤーとして用いるという、単純ではあるがこれまで軽視されてきた戦略によって、この成果が達成可能である点である。本研究は、従来の多モーダルな視覚・言語アーキテクチャ（言語プロンプト、入力、出力を伴う）を必要とする一般的な手法とは大きく異なり、LLMをコンピュータビジョンタスクに活用する可能性の境界を押し広げた。我々は、本アプローチが、純粋な2Dおよび3D視覚認識タスク（例：画像・点群分類）、時系列モデリングタスク（例：行動認識）、非意味的タスク（例：運動予測）、および多モーダルタスク（例：2D/3D視覚質問応答および画像・テキスト検索）にわたり、一貫して性能向上をもたらすことを実証した。このような向上効果は普遍的な現象であり、さまざまな種類のLLM（例：LLaMAやOPT）および異なるLLMのTransformerブロックに適用可能である。さらに、事前学習済みLLMが視覚エンコーディングにおいて有効である理由を説明するため、情報フィルタリング仮説を提唱する。この仮説によれば、事前学習済みLLMのTransformerブロックは、視覚トークンの中から情報を含むものと識別し、その影響をさらに強化する。この仮説は、LLMのTransformerブロックを用いた学習後に得られる特徴活性化が、関連領域に強く集中しているという実証的観察結果によって裏付けられている。本研究が、LLMの活用に関する新たな視点を提供し、その内部メカニズムに関する理解を深める契機となることを期待している。コードは https://github.com/ziqipang/LM4VisualEncoding にて公開されている。