Command Palette

Search for a command to run...

20日前

言語中心のオムニモーダル表現学習のスケーリング

Chenghao Xiao Hou Pong Chan Hao Zhang Weiwen Xu Mahani Aljunied Yu Rong

言語中心のオムニモーダル表現学習のスケーリング

要約

最近、対照学習(CL)を用いて微調整されたマルチモーダル大規模言語モデル(MLLM)を活用するマルチモーダル埋め込み手法が、有望な成果を示している。しかし、こうした手法の優位性の背後にあるメカニズムについては、まだ十分に解明されていない。本研究では、MLLMベースのアプローチがもたらす重要な利点は、生成的前学習(generative pretraining)の過程で暗黙的に達成されるクロスモーダル整合性に起因していると主張する。この過程において、言語デコーダーは共有表現空間内でのマルチモーダル信号を活用し、単モーダル出力を生成する能力を学習する。本研究では、異方性およびカーネル類似性構造の分析を通じて、MLLMの表現空間内に潜在的な整合性が生じていることを実証的に確認した。これにより、CLが軽量な微調整段階として機能可能であることが示された。この知見を基に、我々は「言語中心型オムニモーダル埋め込み(Language-Centric Omnimodal Embedding, LCO-Emb)」というフレームワークを提案する。多様なバックボーンおよびベンチマークにおける広範な実験により、本手法の有効性を検証し、あらゆるモーダルにおいて最先端の性能を達成した。さらに、生成能力と表現能力のスケーリング則(Generation-Representation Scaling Law, GRSL)を同定した。この法則は、対照学習による表現能力の向上が、MLLMの生成能力と正の相関関係にあることを示しており、生成能力の向上が表現品質の向上に有効なパラダイムであることを示唆している。本研究ではGRSLに対して理論的説明を提供し、MLLMの生成品質と表現性能の上限との間の明確な関係を形式的に定式化した。また、挑戦的でリソースが限られた視覚ドキュメント検索タスクにおいてこの法則を実証し、CLの前段階で継続的な生成的前学習を実施することで、モデルの埋め込み能力の潜在力をさらに高められることを示した。コード、モデル、および関連リソースは、https://github.com/LCO-Embedding/LCO-Embedding にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
言語中心のオムニモーダル表現学習のスケーリング | 論文 | HyperAI超神経