11日前
Shikra:マルチモーダルLLMの参照対話の魔法を解き放つ
Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, Rui Zhao

要約
人間同士の会話において、人々は相手に話す際にシーン内の関連領域を指し示すことができる。そして、相手は必要に応じて特定の領域を参照して応答することができる。このような会話における自然な参照能力は、現在のマルチモーダル大規模言語モデル(MLLM)には存在しない。このギャップを埋めるために、本論文では空間座標の入出力を自然言語形式で処理できるMLLM「Shikra」を提案する。Shikraのアーキテクチャは、視覚エンコーダ、アライメント層、および大規模言語モデル(LLM)から構成されており、追加の語彙、位置エンコーダ、事前/事後検出モジュール、外部プラグインモデルを必要としないシンプルで直感的な設計となっている。すべての入出力は自然言語形式で行われる。参照対話は、さまざまな視覚言語(VL)タスクを包含する上位集合であり、ShikraはRECやPointQAといった位置関連タスクを自然に処理できるほか、画像キャプションやVQAといった従来のVLタスクも効果的に実行可能である。実験結果から、Shikraの有望な性能が示された。さらに、思考の連鎖において言及された対象の座標を出力したり、ユーザーが指した領域間の類似性を比較するなど、多様な応用が可能である。本研究のコード、モデルおよびデータセットは、https://github.com/shikras/shikra にて公開されている。