Command Palette
Search for a command to run...
Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

要約
マルチモーダル大規模言語モデル(MLLM)は、真に人間らしい相互作用を実現する上で大きな可能性を示しているものの、複雑な人間の意図を正確に理解し、共感的かつ文脈に即した応答を提供するという人間中心のシナリオにおける、細分化された評価フレームワークの不足が進展を阻んでいる。本研究では、MLLMの「人間中心の認識」と「相互作用能力」を包括的に評価することを目的としたベンチマーク「HumanSense」を提案する。特に、拡張されたマルチモーダル文脈の深層的理解および合理的なフィードバックの構成に焦点を当てている。評価結果から、最先端のMLLMでも、高度な対話指向タスクにおいて大幅な改善余地が存在することが明らかになった。視覚情報に音声およびテキスト情報を追加することで、性能が顕著に向上し、オムニモーダルモデルが優位性を発揮することが確認された。これは、適切なフィードバックが対話相手のニーズや感情を文脈的に分析することから生じるという観察に基づくものであり、本研究では推論能力がその鍵であると主張する。そこで、複数段階にわたるモーダル段階的強化学習アプローチを設計し、HumanSense-Omni-Reasoningを構築。これにより、高次理解および対話タスクにおける性能が顕著に向上した。さらに、成功した推論プロセスには一貫した思考パターンが見られることが観察された。