17日前

発話者認識のためのリシェイプ次元ネットワーク

Ivan Yakovlev, Rostislav Makarov, Andrei Balykin, Pavel Malov, Anton Okhotnikov, Nikita Torgashov
発話者認識のためのリシェイプ次元ネットワーク
要約

本稿では、発話レベルの話者表現を抽出するための新しいニューラルネットワークアーキテクチャとして、Reshape Dimensions Network(ReDimNet)を提案する。本手法は、2次元特徴マップを1次元信号表現に、あるいはその逆に次元を再形状(reshape)する仕組みを活用し、1次元ブロックと2次元ブロックを効果的に統合して用いることを可能にする。また、1次元ブロックと2次元ブロックの出力であるチャネル×時刻×周波数の体積を保持する独自のネットワークトポロジーを提案することで、効率的な残差特徴マップの集約を実現している。さらに、ReDimNetは効率的にスケーラブルであり、モデルサイズを1~15Mパラメータ、計算量を0.5~20 GMACsの範囲で多様に調整可能なモデル群を導入している。実験結果から、ReDimNetは話者認識性能において最先端の成果を達成しつつ、計算複雑性およびモデルパラメータ数を大幅に削減できることを示した。