エンドツーエンド音声会話型質問応答:タスク、データセット、モデル

音声質問応答(Spoken Question Answering)において、システムは関連する音声トランスクリプト内の連続するテキストスパンから質問に回答するように設計されている。しかし、人間が知識を獲得したり検証したりする最も自然な方法は、人間同士の会話である。したがって、本研究では、音声文書を前提として複雑な対話フローをモデル化できるようになることを目的として、新しい「音声会話型質問応答(Spoken Conversational Question Answering, SCQA)」というタスクを提案する。このタスクの主な目的は、音声記録に基づく会話形式の質問に対応できるシステムを構築し、情報収集において異なるモダリティからのより豊かな手がかりをシステムに提供する可能性を検証することにある。そのために、高ノイズを含む自動生成トランスクリプトを直接利用するのではなく、新たな統一的データ蒸留手法であるDDNetを提案する。DDNetは、マルチモーダル情報の効果的な統合により、音声モダリティと言語モダリティの細粒度表現を実現する。さらに、音声とテキスト間のより良い対応付けを促進するシンプルかつ新規なメカニズム「Dual Attention」を導入することで、知識の転移プロセスを容易にする。SCQAシステムの会話形式のインタラクション能力を評価するため、4,000件の会話から得られた4万件を超える質問-回答ペアを含む「Spoken Conversational Question Answering(Spoken-CoQA)」データセットを構築した。既存の最先端手法は、当該データセット上で著しく性能が低下することが明らかとなり、マルチモーダル情報の統合の必要性を示している。実験結果から、本研究で提案する手法が音声会話型質問応答タスクにおいて優れた性能を達成することが確認された。