2ヶ月前

オーディオ・バロウ・ツインズ:自己監督型音響表現学習

Anton, Jonah ; Coppock, Harry ; Shukla, Pancham ; Schuller, Bjorn W.
オーディオ・バロウ・ツインズ:自己監督型音響表現学習
要約

Barlow Twinsの自己監督学習目的関数は、ネガティブサンプルや非対称的な学習更新を必要とせず、コンピュータビジョン分野における現行の最先端技術に匹敵する結果を達成しています。本研究では、この方法を音響領域に適応させた新しい自己監督音響表現学習手法であるAudio Barlow Twinsを提案します。大規模な音響データセットAudioSetで事前学習を行い、HEAR 2021チャレンジの18つのタスクにおいて学習された表現の品質を評価しました。その結果、インスタンス識別に焦点を当てた自己監督音響表現学習手法の現行最先端技術を超えるか、またはそれに匹敵する結果を得ました。コードはhttps://github.com/jonahanton/SSL_audioで公開されています。