6ヶ月前

ベンチマーク

データセット

AIインフラストラクチャ

マルチモーダル

Chengqian Ma Wei Tao Yiwen Guo

概要

近年、音声対話モデル（Spoken Dialogue Models: SDMs）は、ユーザーの音声入力に対して直接音声応答を生成する能力により、注目を集めている。しかし、こうしたモデルの実用的効果——特に人間の会話の理解および模倣能力——を包括的に把握するための研究は、依然として不足している。これは、テキストベースの大規模言語モデル（Large Language Models: LLMs）と比較して顕著であり、後者には広範なベンチマークが整備されている。人間の音声対話は、音声特有の特性から、テキスト対話に比べて inherently より複雑である。その一因として、多義語や同音異義語、発音の強弱パターンといった語彙的・音声的要因に起因する曖昧性が挙げられる。さらに、省略、共参照、複数ターンの対話といった文脈依存性も、人間の会話の動的な性質をさらに複雑にする要因となる。本稿では、SDMの現状を明確にし、こうした課題に対処するため、英語および中国語で合計1,079件のインスタンスを含むベンチマークデータセットを提示する。また、人間の判断に近い評価を可能にするLLMベースの評価手法を併用することで、SDMがこれらの実用的課題に対して果たす性能を包括的に検証する基盤を提供する。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ベンチマーク

データセット

AIインフラストラクチャ

マルチモーダル

Chengqian Ma Wei Tao Yiwen Guo

概要

近年、音声対話モデル（Spoken Dialogue Models: SDMs）は、ユーザーの音声入力に対して直接音声応答を生成する能力により、注目を集めている。しかし、こうしたモデルの実用的効果——特に人間の会話の理解および模倣能力——を包括的に把握するための研究は、依然として不足している。これは、テキストベースの大規模言語モデル（Large Language Models: LLMs）と比較して顕著であり、後者には広範なベンチマークが整備されている。人間の音声対話は、音声特有の特性から、テキスト対話に比べて inherently より複雑である。その一因として、多義語や同音異義語、発音の強弱パターンといった語彙的・音声的要因に起因する曖昧性が挙げられる。さらに、省略、共参照、複数ターンの対話といった文脈依存性も、人間の会話の動的な性質をさらに複雑にする要因となる。本稿では、SDMの現状を明確にし、こうした課題に対処するため、英語および中国語で合計1,079件のインスタンスを含むベンチマークデータセットを提示する。また、人間の判断に近い評価を可能にするLLMベースの評価手法を併用することで、SDMがこれらの実用的課題に対して果たす性能を包括的に検証する基盤を提供する。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

C3：複雑な対話における課題を探究するスプーケン対話モデル向け二か国語ベンチマーク | 記事 | HyperAI超神経