2ヶ月前
リアルタイム目標音抽出
Veluri, Bandhav ; Chan, Justin ; Itani, Malek ; Chen, Tuochao ; Yoshioka, Takuya ; Gollakota, Shyamnath

要約
本稿では、リアルタイムおよびストリーミングのターゲット音抽出を達成した最初のニューラルネットワークモデルについて紹介します。この目標を達成するために、Waveformerというモデルを提案します。Waveformerは、エンコーダーとしてディラテッド因果畳み込み層のスタックを使用し、デコーダーとしてトランスフォーマーデコーダー層を使用するエンコーダー-デコーダー構造を持っています。このハイブリッドアーキテクチャは、大規模な受容野を計算効率的に処理するためのディラテッド因果畳み込みと、トランスフォーマーベースのアーキテクチャの汎化性能を活用しています。評価結果では、従来のモデルと比較してSI-SNRiで最大2.2〜3.3 dBの改善が見られるとともに、モデルサイズは1.2〜4倍小さく、実行時間も1.5〜2倍短くなっています。コード、データセット、オーディオサンプルは以下のURLから提供されています: https://waveformer.cs.washington.edu/。