17日前

EVA:大規模なマスク視覚表現学習の限界を探る

Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao
EVA:大規模なマスク視覚表現学習の限界を探る
要約

我々は、公開可能なデータのみを用いて視覚表現のスケールにおける限界を探るための、視覚中心型の基礎モデル「EVA」を発表する。EVAは、可視な画像パッチを条件として、マスクされた画像・テキスト対応視覚特徴の再構成を目的とした、シンプルなViT(Vision Transformer)モデルとして事前学習される。この事前学習タスクを通じて、EVAは10億パラメータ規模まで効率的にスケーリング可能となり、画像認識、動画行動認識、物体検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、代表的な視覚下流タスクにおいて、大量の教師あり学習を伴わずに、新たな記録を樹立した。さらに、EVAのスケーリングに伴い、他のモデルには見られない質的変化が転移学習性能において観測された。例えば、大規模語彙インスタンスセグメンテーションという困難なタスクにおいて、EVAはLVISv1.0データセット(1000種類以上のカテゴリ)とCOCOデータセット(80種類のカテゴリ)の両方で、ほぼ同等の最先端性能を達成した。純粋な視覚エンコーダーとしての機能に加え、EVAは画像とテキストを結ぶ視覚中心型のマルチモーダル中核としても機能する。大規模CLIPモデルの視覚タワーをEVAから初期化することで、学習の安定性が大幅に向上し、事前学習から始める場合と比較して、はるかに少ないサンプル数と計算リソースで優れた性能を達成できることを確認した。これは、マルチモーダル基礎モデルの高コストな学習をスケーリング・高速化するための新たなアプローチを示している。今後の研究を促進するために、本研究のすべてのコードおよびモデルを https://github.com/baaivision/EVA にて公開する。

EVA:大規模なマスク視覚表現学習の限界を探る | 最新論文 | HyperAI超神経