Command Palette
Search for a command to run...
リアルタイム目標音抽出
リアルタイム目標音抽出
Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota
概要
本稿では、リアルタイムおよびストリーミングのターゲット音抽出を達成した最初のニューラルネットワークモデルについて紹介します。この目標を達成するために、Waveformerというモデルを提案します。Waveformerは、エンコーダーとしてディラテッド因果畳み込み層のスタックを使用し、デコーダーとしてトランスフォーマーデコーダー層を使用するエンコーダー-デコーダー構造を持っています。このハイブリッドアーキテクチャは、大規模な受容野を計算効率的に処理するためのディラテッド因果畳み込みと、トランスフォーマーベースのアーキテクチャの汎化性能を活用しています。評価結果では、従来のモデルと比較してSI-SNRiで最大2.2〜3.3 dBの改善が見られるとともに、モデルサイズは1.2〜4倍小さく、実行時間も1.5〜2倍短くなっています。コード、データセット、オーディオサンプルは以下のURLから提供されています: https://waveformer.cs.washington.edu/。