2ヶ月前

音声テキスト対話の事前学習と明示的なクロスモーダルアライメントを用いた対話理解

Tianshu Yu; Haoyu Gao; Ting-En Lin; Min Yang; Yuchuan Wu; Wentao Ma; Chao Wang; Fei Huang; Yongbin Li
音声テキスト対話の事前学習と明示的なクロスモーダルアライメントを用いた対話理解
要約

最近、音声-テキスト事前学習手法は多くの音声処理および自然言語処理タスクにおいて著しい成功を収めています。しかし、これまでの大多数の事前学習モデルは特定の1つか2つのタスクに特化しており、幅広い音声-テキストタスクを制覇することはできていません。さらに、既存の音声-テキスト事前学習手法は対話内の文脈情報を探索して発話表現を豊かにすることができていません。本論文では、初めての音声-テキスト対話事前学習モデルであるSpeech-text dialog Pre-training for spoken dialog understanding with ExpliCiT cRoss-Modal Alignment (SPECTRA) を提案します。具体的には、音声モダリティの時系列性を考慮するために、新たな時系列位置予測タスクを設計し、音声とテキストのアライメントを捉えます。この事前学習タスクは、各テキスト単語が対応する音声波形で開始され終了する時間を見積もることを目指しています。また、話し言葉の対話を学ぶ特性を理解するために、テキスト対話的事前学習から応答選択タスクを一般化し、音声-テキスト対話的事前学習シナリオに適用します。4つの異なる下流音声-テキストタスクにおける実験結果は、SPECTRAが音声-テキストアライメントとマルチターン対話文脈の学習において優れていることを示しています。

音声テキスト対話の事前学習と明示的なクロスモーダルアライメントを用いた対話理解 | 最新論文 | HyperAI超神経