
要約
ビデオから物体の音を学習することは困難であり、多くの場合、単一のオーディオチャネルで音が重複するためです。視覚ガイド付きオーディオソース分離の現在の手法は、人工的に混合されたビデオクリップを使用して訓練することでこの問題を回避していますが、これにより訓練データの収集に制約がかかり、さらには「真実の」混合音の特性を学習することさえ妨げられる可能性があります。私たちは、ラベル付けされていないマルチソースビデオから物体レベルの音を学習できる共分離訓練パラダイムを導入します。私たちの新しい訓練目標は、類似した外観を持つ物体の深層ニューラルネットワークによる分離された音が一貫して識別可能であることを必要とし、同時に各ソース訓練ペアに対して正確なビデオレベルのオーディトラックを再現します。当手法は現実的なテストビデオにおいても音を分離し、訓練中に個別に観察されなかった物体の場合でも有効です。MUSIC、AudioSet、およびAV-Benchデータセットにおける視覚ガイド付きオーディオソース分離とオーディノイズ除去において最先端の結果を得ています。