15日前

SPGM:局所特徴の優先化による音声分離性能の向上

Jia Qi Yip, Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Dianwen Ng, Eng Siong Chng, Bin Ma
SPGM:局所特徴の優先化による音声分離性能の向上
要約

双パス(Dual-path)は、音声分離モデル(例:Sepformer)において広く用いられるアーキテクチャであり、長時間の音声系列を重複するチャンクに分割し、各チャンク内の局所的特徴(intra-chunk local features)とチャンク間のグローバルな関係(inter-chunk global relationships)を別々にモデル化する。しかし、実際の検証において、モデル全体のパラメータの半分を占める「インターブロック(inter-blocks)」が性能向上にほとんど寄与しないことが明らかになった。この問題に対処するために、我々はインターブロックを置き換える「シングルパス・グローバルモジュレーション(Single-Path Global Modulation: SPGM)」ブロックを提案する。SPGMは、パラメータを一切持たないグローバルプーリングモジュールと、モデル全体のパラメータのわずか2%のみを占めるモジュレーションモジュールから構成される構造に由来する。SPGMブロックにより、モデル内のすべてのTransformer層が局所的特徴のモデリングに専念可能となり、全体としてシングルパス構造を実現する。SPGMは、WSJ0-2Mixにおいて22.1 dBのSI-SDRi、Libri2Mixでは20.4 dBのSI-SDRiを達成し、それぞれSepformerを0.5 dBおよび0.3 dB上回る性能を発揮。また、パラメータ数が最大で8倍少ないにもかかわらず、最近の最先端(SOTA)モデルと同等の性能を実現した。モデルおよび重みは、Hugging Face(huggingface.co/yipjiaqi/spgm)にて公開されている。

SPGM:局所特徴の優先化による音声分離性能の向上 | 最新論文 | HyperAI超神経