Command Palette
Search for a command to run...

要約
視覚トークン化は、自己回帰的枠組みにおける視覚理解と生成の統合において、依然として中心的な課題である。従来の手法は、大規模言語モデルのトークンと整合させるために、離散的な潜在空間におけるトークナイザーを用いることが一般的であるが、この場合、量子化誤差が意味的表現力の制限を引き起こし、視覚言語理解の能力を低下させる要因となる。この課題に対処するため、本研究では、連続的な潜在空間を採用する新しい視覚トークナイザー群「MingTok」を提案する。この手法は、統一的な自己回帰的生成と理解を実現することを目的としている。理解タスクでは判別的な高次元特徴が望ましく、一方生成タスクではコンパクトな低レベルコードが好まれる。こうした相反する要求を調和するため、MingTokは低レベル符号化、意味的拡張、視覚再構成という3段階の逐次アーキテクチャを採用している。この基盤の上に構築されたMing-UniVisionは、タスク特有の視覚表現の必要性を排除し、単一の自己回帰的予測枠組みの下で多様な視覚言語タスクを統一的に処理できる。理解と生成の両方を共有される連続空間における次のトークン予測として定式化することで、イテレーティブな理解、生成、編集を含むマルチラウンドかつ文脈内タスクのシームレスなサポートが可能となる。実験的に、統一された連続的視覚表現が理解タスクと生成タスクによるトークナイザーに対する相反する要求を調和させ、両領域において最先端の性能を達成することを確認した。本研究の成果が、連続領域における統一的視覚トークン化の発展に貢献することを期待する。推論用コードおよびモデル重みは、コミュニティの皆様の利便性を図るため公開する。