5ヶ月前

概要

マルチモーダル大規模言語モデル（MLLM）がロボットシステムやさまざまなAI応用に統合される中で、これらのモデルに感情知能（EI）の能力を組み込むことは、ロボットが人間の感情的ニーズに効果的に対応し、現実世界のシナリオにおいて円滑に相互作用できるようにする上で不可欠である。既存の静的でテキスト中心、あるいはテキスト・画像ベースのベンチマークは、現実の相互作用におけるマルチモーダルな複雑性を無視しており、感情表現の動的かつマルチモーダルな性質を捉えられていないため、MLLMの感情知能を適切に評価するには不十分である。感情知能に関する既存の心理学的理論を基盤として、本研究では、感情認識の基礎能力、会話における感情理解、社会的に複雑な状況における感情分析という3つの主要な次元から、合計13の評価シナリオをカバーする、MLLMの感情知能能力を評価するための新規ベンチマーク「EmoBench-M」を構築した。オープンソースおよびクローズドソースの両方のMLLMについてEmoBench-Mを用いた評価結果から、モデルと人間との間に顕著な性能差が確認され、MLLMの感情知能能力をさらに向上させる必要性が浮き彫りになった。本ベンチマークに使用されるすべてのリソース（コードおよびデータセット）は、このURLにて公開されている。

ソースPDF コードを表示