Command Palette
Search for a command to run...
Chen Chen ZeYang Hu Fengjiao Chen Liya Ma Jiaxing Liu Xiaoyu Li Ziwen Wang Xuezhi Cao Xunliang Cai

要約
マルチモーダル大規模言語モデルは、単一モーダルな理解から、視覚、音声、言語のモーダルを統合する「オムニモデル」としての進化を遂げつつある。しかし、単一モーダルとオムニモーダルの間の相関関係は依然として明確でないため、オムニモデルの知能進化を促進するためには包括的な評価が不可欠である。本研究では、新規で高品質かつ統一的なオムニモデル評価基準「UNO-Bench」を提案する。このベンチマークは、44のタスクタイプと5種類のモーダル組み合わせをカバーする統一された能力分類枠組みのもとで、単一モーダルおよびオムニモーダルの両方の能力を効果的に評価することを目的として設計されている。オムニモーダル用に1250件の人工選定サンプルを収録しており、98%のクロスモーダル解法可能性を達成している。また、単一モーダル用に2480件の強化済みサンプルを用意している。人間が生成したデータセットは、特に中国語文脈を含む現実世界のシナリオに適している一方、自動圧縮されたデータセットは18の公開ベンチマークにおいて98%の一貫性を維持しつつ、処理速度を90%向上させている。従来の多肢選択形式に加え、複雑な推論能力を評価するための新規な複数ステップ型オープンエンド形式の質問を提案する。さらに、6種類の質問形式に対応する汎用スコアリングモデルを導入し、自動評価を実現。その精度は95%に達している。実験結果から、オムニモーダルと単一モーダルの性能の間に「構成則(Compositional Law)」が存在することが示され、弱いモデルではオムニモーダル能力がボトルネックとなる一方、強いモデルでは相互補完的な促進効果を発揮することが明らかになった。