概要

音声言語モデル（SLMs）は、音声理解と音声生成を統合したパラダイムとして登場し、自然な人間と機械の相互作用を可能にしている。しかし、これまでの研究進展の多くは意味的正確性や指示遵守に注目されてきた一方で、SLMが音声による指示に応じて話すスタイルを適応させる能力については、ほとんど注目されてこなかった。本研究では、自然言語による音声命令に従い、音色や抑揚、キャラクターなどの話すスタイルを変更できるかどうかを検証する新たなタスク「ボイススタイル適応（Voice Style Adaptation: VSA）」を提案する。このタスクを検討するため、音声属性、自然言語指令、役割演技、および内面的共感の4つのカテゴリをカバーする、中国語・英語の二言語対応ベンチマーク「VStyle」を構築した。さらに、出力のテキスト忠実性、スタイルの適合性、自然さの3つの側面を段階的に評価する「大型音声言語モデルをジャッジとして用いる（LALM as a Judge）」フレームワークを導入し、再現性と客観性を確保した評価を実現した。商用システムおよびオープンソースのSLMを対象とした実験から、現在のモデルは制御可能なスタイル適応において明確な限界を示していることが明らかになった。これは、本タスクの新規性と挑戦性を示している。VStyleとその評価ツールキットを公開することで、人間中心の音声インタラクションの進展を促す基盤をコミュニティに提供することを目的としている。データセットおよびコードは、以下のページで公開されている：https://junzhan2000.github.io/VStyle.github.io/

ソースPDF コードを表示