
要約
音声分類において、パラメータが少ない微分可能な聴覚フィルタバンクは、ハードコーディングされたスペクトログラムと生の音声の間の中道を占めています。Gaborに基づくフィルタバンクとチャネルごとのエネルギー正規化(Per-Channel Energy Normalization, PCEN)を組み合わせたLEAF (arXiv:2101.08596) は有望な結果を示していますが、計算コストが高いという問題があります。非均一な畳み込みカーネルサイズとストライドを使用し、PCENをより並列化可能な操作に置き換えることで、効率的に同様の結果を得ることができます。6つの音声分類タスクにおける実験では、私たちのフロントエンドはLEAFの精度に匹敵する結果を3%のコストで達成しましたが、両方とも固定されたメルフィルタバンクを一貫して上回ることはできませんでした。学習可能な音声フロントエンドの追求はまだ解決されていません。