HyperAIHyperAI

Command Palette

Search for a command to run...

リアルタイム目標音抽出

Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota

概要

本稿では、リアルタイムおよびストリーミングのターゲット音抽出を達成した最初のニューラルネットワークモデルについて紹介します。この目標を達成するために、Waveformerというモデルを提案します。Waveformerは、エンコーダーとしてディラテッド因果畳み込み層のスタックを使用し、デコーダーとしてトランスフォーマーデコーダー層を使用するエンコーダー-デコーダー構造を持っています。このハイブリッドアーキテクチャは、大規模な受容野を計算効率的に処理するためのディラテッド因果畳み込みと、トランスフォーマーベースのアーキテクチャの汎化性能を活用しています。評価結果では、従来のモデルと比較してSI-SNRiで最大2.2〜3.3 dBの改善が見られるとともに、モデルサイズは1.2〜4倍小さく、実行時間も1.5〜2倍短くなっています。コード、データセット、オーディオサンプルは以下のURLから提供されています: https://waveformer.cs.washington.edu/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています