
要約
限られたデータにおける時系列分類の学習は、実用的ではあるが困難な課題である。現在の手法は主に手動で設計された特徴抽出ルールやドメイン特化型のデータ拡張に依存している。音声データが単変量の時系列信号であるという事実と、深層音声処理モデルの進展に着目し、本稿では、入力変換学習と出力ラベルマッピングを通じて音声モデルを時系列分類に再プログラムする、新たなエンドツーエンドアプローチであるVoice2Series(V2S)を提案する。大規模事前学習済み音声処理モデルの表現学習能力を活用することで、30の異なる時系列分類タスクにおいて、V2Sは19のタスクで競争力ある性能を示した。さらに、再プログラミングによる特徴アライメントを考慮したワッサーシュタイン距離を用いて、V2Sの母集団リスクがソースリスクと上界で抑えられることを理論的に証明することで、その有効性を裏付けた。本研究の成果は、時系列分類に対する新たな且つ効果的なアプローチを提供するものである。