HyperAIHyperAI

Command Palette

Search for a command to run...

SPGM:局所特徴の優先化による音声分離性能の向上

概要

双パス(Dual-path)は、音声分離モデル(例:Sepformer)において広く用いられるアーキテクチャであり、長時間の音声系列を重複するチャンクに分割し、各チャンク内の局所的特徴(intra-chunk local features)とチャンク間のグローバルな関係(inter-chunk global relationships)を別々にモデル化する。しかし、実際の検証において、モデル全体のパラメータの半分を占める「インターブロック(inter-blocks)」が性能向上にほとんど寄与しないことが明らかになった。この問題に対処するために、我々はインターブロックを置き換える「シングルパス・グローバルモジュレーション(Single-Path Global Modulation: SPGM)」ブロックを提案する。SPGMは、パラメータを一切持たないグローバルプーリングモジュールと、モデル全体のパラメータのわずか2%のみを占めるモジュレーションモジュールから構成される構造に由来する。SPGMブロックにより、モデル内のすべてのTransformer層が局所的特徴のモデリングに専念可能となり、全体としてシングルパス構造を実現する。SPGMは、WSJ0-2Mixにおいて22.1 dBのSI-SDRi、Libri2Mixでは20.4 dBのSI-SDRiを達成し、それぞれSepformerを0.5 dBおよび0.3 dB上回る性能を発揮。また、パラメータ数が最大で8倍少ないにもかかわらず、最近の最先端(SOTA)モデルと同等の性能を実現した。モデルおよび重みは、Hugging Face(huggingface.co/yipjiaqi/spgm)にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SPGM:局所特徴の優先化による音声分離性能の向上 | 記事 | HyperAI超神経