2ヶ月前

SSMをConvNetsとする:最適なテンソル収縮による状態空間モデリング

Yan Ru Pei
SSMをConvNetsとする:最適なテンソル収縮による状態空間モデリング
要約

私たちは、一般化された状態空間モデル(Generalized State-Space Model, SSM)ブロックで構成されるネットワークのクラスであるCentaurusを紹介します。訓練中、SSM操作はテンソル収縮として扱うことができます。これにより、各SSMブロックに対してテンソル収縮の最適な順序を系統的に決定し、訓練効率を最大化することが可能になります。これにより、通常実装されているディープワイズ分離型構成を超えて、SSMブロックの設計にさらなる柔軟性がもたらされます。新しい設計選択肢は、グループ畳み込み、完全畳み込み、ボトルネックブロックなどの古典的な畳み込みブロックから着想を得ます。私たちはこれらのブロックの混合を使用してCentaurusネットワークを設計し、ネットワークサイズと性能のバランスを取りつつ、訓練および推論時のメモリと計算効率を向上させることを目指しています。私たちはこの異種ネットワーク設計がキーワード検出、音声除燥、自動音声認識(Automatic Speech Recognition, ASR)などの生音声処理タスクにおいて均一な対応物よりも優れた性能を示すことを示しました。ASRに関しては、Centaurusは非線形再帰(LSTMs)、明示的な畳み込み(CNNs)、または(代替)注意機構を使用せずに完全に状態空間ベースにすることができる初めての競争力のある性能を持つネットワークです。ソースコードは補助資料としてhttps://openreview.net/forum?id=PkpNRmBZ32 で利用可能です。