Command Palette

Search for a command to run...

16日前

ピクセルから文章へ ― スケールにおけるネイティブな視覚言語プリミティブへの道標

Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

ピクセルから文章へ ― スケールにおけるネイティブな視覚言語プリミティブへの道標

要約

ネイティブ型視覚言語モデル(VLM)の枠組みは、モデルアーキテクチャおよび学習パラダイムの進化に伴い、従来のモジュール型VLMに対する有力な競合として台頭しつつある。しかし、その広範な研究と普及を阻む二つの課題が依然として残っている。第一に、ネイティブ型VLMとモジュール型VLMとの間に存在する根本的な制約とは何か、そしてその制約はどの程度克服可能かという点である。第二に、ネイティブ型VLMに関する研究をよりアクセスしやすく、民主化する方法をどう実現するか、すなわち分野全体の進展を加速させるにはどうすればよいかという点である。本論文では、これらの課題を明確にし、ネイティブ型VLMを構築するための指針を提示する。具体的には、一つのネイティブ型VLMの基本構成要素(primitive)は以下の三つの要件を満たすべきである:(i) 共通の意味空間内においてピクセル表現と単語表現を効果的に統合すること;(ii) かつて独立していた視覚モジュールと言語モジュールの強みを滑らかに統合すること;(iii) 視覚と言語の統一的エンコーディング、アライメント、推論を支える多様なクロスモーダル特性を本質的に内包すること。したがって、我々は、これらの基本原理に基づき構築された新しいネイティブ型VLMのファミリー「NEO」を提案する。NEOは、多様な実世界シナリオにおいてトップクラスのモジュール型VLMと競合可能な性能を発揮する。わずか390M枚の画像-テキスト例を用いることで、NEOは完全にゼロから視覚的認識能力を獲得しつつ、我々が精巧に設計した基本構成要素によって構築された高密度かつ一貫したモデル内での視覚-言語の矛盾を効率的に軽減する。NEOは、スケーラブルかつ強力なネイティブ型VLMの基盤として位置づけられ、再利用可能な豊富なコンポーネントを備えることで、コスト効率的かつ拡張性に優れたエコシステムの構築を促進する。本研究のコードおよびモデルは、以下のURLで公開されている:https://github.com/EvolvingLMMs-Lab/NEO。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ピクセルから文章へ ― スケールにおけるネイティブな視覚言語プリミティブへの道標 | 論文 | HyperAI超神経