HyperAIHyperAI

Command Palette

Search for a command to run...

視覚オブジェクトの共分離音

Gao Ruohan ; Grauman Kristen

概要

ビデオから物体の音を学習することは困難であり、多くの場合、単一のオーディオチャネルで音が重複するためです。視覚ガイド付きオーディオソース分離の現在の手法は、人工的に混合されたビデオクリップを使用して訓練することでこの問題を回避していますが、これにより訓練データの収集に制約がかかり、さらには「真実の」混合音の特性を学習することさえ妨げられる可能性があります。私たちは、ラベル付けされていないマルチソースビデオから物体レベルの音を学習できる共分離訓練パラダイムを導入します。私たちの新しい訓練目標は、類似した外観を持つ物体の深層ニューラルネットワークによる分離された音が一貫して識別可能であることを必要とし、同時に各ソース訓練ペアに対して正確なビデオレベルのオーディトラックを再現します。当手法は現実的なテストビデオにおいても音を分離し、訓練中に個別に観察されなかった物体の場合でも有効です。MUSIC、AudioSet、およびAV-Benchデータセットにおける視覚ガイド付きオーディオソース分離とオーディノイズ除去において最先端の結果を得ています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
視覚オブジェクトの共分離音 | 記事 | HyperAI超神経