Command Palette
Search for a command to run...
C3:複雑な対話における課題を探究するスプーケン対話モデル向け二か国語ベンチマーク
C3:複雑な対話における課題を探究するスプーケン対話モデル向け二か国語ベンチマーク
Chengqian Ma Wei Tao Yiwen Guo
概要
近年、音声対話モデル(Spoken Dialogue Models: SDMs)は、ユーザーの音声入力に対して直接音声応答を生成する能力により、注目を集めている。しかし、こうしたモデルの実用的効果——特に人間の会話の理解および模倣能力——を包括的に把握するための研究は、依然として不足している。これは、テキストベースの大規模言語モデル(Large Language Models: LLMs)と比較して顕著であり、後者には広範なベンチマークが整備されている。人間の音声対話は、音声特有の特性から、テキスト対話に比べて inherently より複雑である。その一因として、多義語や同音異義語、発音の強弱パターンといった語彙的・音声的要因に起因する曖昧性が挙げられる。さらに、省略、共参照、複数ターンの対話といった文脈依存性も、人間の会話の動的な性質をさらに複雑にする要因となる。本稿では、SDMの現状を明確にし、こうした課題に対処するため、英語および中国語で合計1,079件のインスタンスを含むベンチマークデータセットを提示する。また、人間の判断に近い評価を可能にするLLMベースの評価手法を併用することで、SDMがこれらの実用的課題に対して果たす性能を包括的に検証する基盤を提供する。