
要約
私たちはCOLA(Contrastive Learning for Audio)を紹介します。これは、音声の汎用表現を学習するための自己監督事前学習手法です。当手法は対照的学習に基づいており、同じ録音から抽出された音声セグメントには高い類似性を、異なる録音からのセグメントには低い類似性を割り当てるように表現を学習します。私たちは、コンピュータビジョンと強化学習における最近の対照的学習の進歩に基づき、軽量で実装が容易な音声の自己監督モデルを設計しました。大規模なAudiosetデータベース上で埋め込みを事前学習し、これらの表現をスピーチ、音楽、動物の鳴き声、および聴覚シーンなど9つの多様な分類タスクに転移させました。当手法は単純であるにもかかわらず、以前の自己監督システムよりも著しく優れた性能を示しています。さらに、アブレーションスタディを行い、重要な設計選択肢を特定し、COLAモデルの事前学習と微調整を行うためのライブラリを公開しました。