6ヶ月前

概要

視覚データは、数ピクセルの小さなアイコンから数時間にわたる長時間の動画まで、多様な形式をとります。既存のマルチモーダル大規模言語モデル（LLM）は、これらの多様な視覚入力を、視覚エンコーダー用に固定解像度に統一し、LLMに入力するトークン数も一定にしています。このアプローチは、マルチモーダル理解において最適ではなく、長時間および短時間の視覚コンテンツを処理する際には非効率です。この問題を解決するために、本研究では、画像、動画、マルチビュー3Dシーンの空間時間的理解を統合的に処理できる「Oryx」という新たなマルチモーダルアーキテクチャを提案します。Oryxは、以下の2つの核心的革新により、任意の空間的サイズおよび時間的長さを持つ視覚入力を、シームレスかつ効率的に処理するオンデマンドなソリューションを提供します：1）任意の解像度の画像を、LLMに適した視覚表現に変換可能な事前学習済みのOryxViTモデル；2）要請に応じて1倍から16倍までの可変圧縮をサポートする動的圧縮モジュール。これらの設計により、Oryxは、低解像度と高圧縮を活用しつつも、長時間の視覚コンテキスト（例：動画）を極めて効率的に処理でき、同時に、元の解像度で圧縮なしのドキュメント理解などのタスクにおいても高い認識精度を維持します。アーキテクチャの改良に加え、長文コンテキストの検索および空間情報に配慮したデータの強化された収集と専門的な訓練により、Oryxは画像、動画、3Dのマルチモーダル理解において同時に高い性能を達成しています。本研究のコードは、GitHubでオープンソースとして公開されています：https://github.com/Oryx-mllm/Oryx。

ソースPDF