概要

本稿では、ストリーミングかつマルチモーダルなシーケンス・トゥ・シーケンス学習を柔軟に扱えるフレームワークとして、遅延ストリームモデリング（Delayed Streams Modeling, DSM）を提案する。従来のシーケンス・トゥ・シーケンス生成は、出力の最初の時刻ステップを生成する前に、入力シーケンス全体を事前に読み込むオフライン形式で扱われることが多い。一方、ストリーミング型のシーケンス・トゥ・シーケンスモデルは、入力ストリームの進捗や出力ストリームへの書き込みタイミングを学習するポリシーを推定する。これに対して、DSMは、入力と出力の時系列が事前に同期されたストリームを、単一のデコーダ型言語モデルで扱う。時系列同期処理を前処理段階に移し、ストリーム間の適切な遅延を導入することで、任意の入力組み合わせから任意長の出力シーケンスをストリーミング形式で生成可能となる。この特性により、多くのシーケンス・トゥ・シーケンス問題に適用可能である。特に、テキストストリームと音声ストリームを入力とした場合、テキストストリームに遅延を加えることで音声認識（ASR）モデルが得られ、逆に音声ストリームに遅延を加えることでテキストから音声を生成する（TTS）モデルが実現できる。本研究では、この二つの主要なシーケンス・トゥ・シーケンスタスクに対して広範な実験を行い、DSMが最先端の性能と低レイテンシを実現しつつ、任意の長さのシーケンスを扱えることを示した。また、オフラインベースラインと比較しても競争力を持つことが明らかになった。コード、サンプル、デモは、以下のURLから公開されている。https://example.com/dsm-demo

ソースPDF コードを表示