HyperAIHyperAI

Command Palette

Search for a command to run...

遅延ストリームを考慮したストリーミング逐次学習

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

概要

本稿では、ストリーミングかつマルチモーダルなシーケンス・トゥ・シーケンス学習を柔軟に扱えるフレームワークとして、遅延ストリームモデリング(Delayed Streams Modeling, DSM)を提案する。従来のシーケンス・トゥ・シーケンス生成は、出力の最初の時刻ステップを生成する前に、入力シーケンス全体を事前に読み込むオフライン形式で扱われることが多い。一方、ストリーミング型のシーケンス・トゥ・シーケンスモデルは、入力ストリームの進捗や出力ストリームへの書き込みタイミングを学習するポリシーを推定する。これに対して、DSMは、入力と出力の時系列が事前に同期されたストリームを、単一のデコーダ型言語モデルで扱う。時系列同期処理を前処理段階に移し、ストリーム間の適切な遅延を導入することで、任意の入力組み合わせから任意長の出力シーケンスをストリーミング形式で生成可能となる。この特性により、多くのシーケンス・トゥ・シーケンス問題に適用可能である。特に、テキストストリームと音声ストリームを入力とした場合、テキストストリームに遅延を加えることで音声認識(ASR)モデルが得られ、逆に音声ストリームに遅延を加えることでテキストから音声を生成する(TTS)モデルが実現できる。本研究では、この二つの主要なシーケンス・トゥ・シーケンスタスクに対して広範な実験を行い、DSMが最先端の性能と低レイテンシを実現しつつ、任意の長さのシーケンスを扱えることを示した。また、オフラインベースラインと比較しても競争力を持つことが明らかになった。コード、サンプル、デモは、以下のURLから公開されている。https://example.com/dsm-demo


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
遅延ストリームを考慮したストリーミング逐次学習 | 記事 | HyperAI超神経