Command Palette

Search for a command to run...

9日前

WEAVE:文脈内インタリーブド理解および生成の解放とベンチマーク

WEAVE:文脈内インタリーブド理解および生成の解放とベンチマーク

要約

最近の統合型マルチモーダルモデル(UMMs)の進展により、視覚理解および画像生成において著しい進歩が達成された。しかし、既存のデータセットやベンチマークは主に単一ターンの対話に焦点を当てており、現実世界における画像作成や編集に見られる複数ターンにわたる文脈依存的な性質を捉えられていない。このギャップを埋めるために、本研究では、コンテキスト内での交差モダリティ理解と生成を実現する初めてのツールキット「WEAVE」を提案する。本ツールキットは、2つの補完的な構成要素から成る。WEAVE-100kは、37万以上の対話ターンと50万枚以上の画像をカバーする、10万件のインタリーブ(交互)サンプルからなる大規模データセットであり、歴史的文脈に基づく推論を要する理解、編集、生成の各タスクを網羅している。一方、WEAVEBenchは480枚の画像を基に構成された100のタスクからなる人間アノテーション付きベンチマークであり、参照画像と、元画像と編集指示の組み合わせを併用したハイブリッドVLM(視覚言語モデル)評価フレームワークを採用しており、複数ターンの生成、視覚記憶、世界知識の推論能力を、多様な分野にわたり評価する。実験の結果、WEAVE-100kで学習させることで、視覚理解、画像編集、理解-生成の協調能力が向上することが示された。さらに、UMMが新たな視覚記憶能力を発現する可能性を示唆した。一方、WEAVEBenchにおける広範な評価により、現在のアプローチが複数ターンかつ文脈に依存する画像生成・編集において依然として根深い限界と課題を抱えていることが明らかになった。本研究では、WEAVEがマルチモーダルコミュニティにおけるコンテキスト内インタリーブ理解・生成の研究に新たな視座と基盤を提供すると確信している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
WEAVE:文脈内インタリーブド理解および生成の解放とベンチマーク | 論文 | HyperAI超神経