8日前

GiT:ユニバーサル言語インターフェースによる汎用視覚Transformerの実現へ

Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang
GiT:ユニバーサル言語インターフェースによる汎用視覚Transformerの実現へ
要約

本稿では、単一のヴァニラ型ViT(Vision Transformer)を用いて、さまざまな視覚タスクに同時に適用可能な、シンプルかつ効果的なフレームワーク「GiT(General-purpose Image Transformer)」を提案する。大規模言語モデル(LLM)で広く用いられている多層Transformerアーキテクチャ(例:GPT)の普遍性に着目し、その適用範囲を視覚領域に拡張することで、強力な視覚基盤モデル(VFM)の構築を目指す。しかし、言語モデルとは異なり、視覚タスクは通常、検出タスクに必要なバウンディングボックスヘッドや、セグメンテーションに必要なピクセルデコーダーといった特定モジュールを必要とし、強力な多層Transformerの視覚分野への応用を大きく制限している。この課題を解決するため、我々は、一貫した自己回帰的デコードを実現する普遍的な言語インターフェースを設計した。このインターフェースにより、画像レベルの理解(例:キャプショニング)、スパースな認識(例:検出)、密度の高い予測(例:セグメンテーション)といった多様な視覚タスクを統一的に扱うことが可能となる。上記の設計に基づき、モデル全体はViTのみで構成され、特定の追加モジュールを一切追加せず、極めて簡潔なアーキテクチャを実現している。GiTは、5つの代表的なベンチマークでタスク固有の微調整なしに共同学習を行うマルチタスク視覚モデルであり、驚くべきことに、汎用的性能において新たなベンチマークを構築し、タスク間の相互強化を促進することで、個別に学習した場合と比べて顕著な性能向上を達成した。これは、LLMにおいても観察される現象と類似している。さらに、27のデータセットを用いた豊富な学習を加えることで、GiTは多様なタスクにおいて強力なゼロショット性能を達成した。その単純な設計ゆえに、このアプローチは視覚と言語の間のアーキテクチャ的ギャップを縮小する可能性を秘めている。コードおよびモデルは、\url{https://github.com/Haiyang-W/GiT}にて公開される予定である。

GiT:ユニバーサル言語インターフェースによる汎用視覚Transformerの実現へ | 最新論文 | HyperAI超神経