8ヶ月前

音声および音声処理

コンピュータビジョン

オーディオ

コンピュータビジョン

Aaqib Saeed David Grangier Neil Zeghidour

概要

私たちはCOLA（Contrastive Learning for Audio）を紹介します。これは、音声の汎用表現を学習するための自己監督事前学習手法です。当手法は対照的学習に基づいており、同じ録音から抽出された音声セグメントには高い類似性を、異なる録音からのセグメントには低い類似性を割り当てるように表現を学習します。私たちは、コンピュータビジョンと強化学習における最近の対照的学習の進歩に基づき、軽量で実装が容易な音声の自己監督モデルを設計しました。大規模なAudiosetデータベース上で埋め込みを事前学習し、これらの表現をスピーチ、音楽、動物の鳴き声、および聴覚シーンなど9つの多様な分類タスクに転移させました。当手法は単純であるにもかかわらず、以前の自己監督システムよりも著しく優れた性能を示しています。さらに、アブレーションスタディを行い、重要な設計選択肢を特定し、COLAモデルの事前学習と微調整を行うためのライブラリを公開しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

コンピュータビジョン

オーディオ

コンピュータビジョン

Aaqib Saeed David Grangier Neil Zeghidour

概要

私たちはCOLA（Contrastive Learning for Audio）を紹介します。これは、音声の汎用表現を学習するための自己監督事前学習手法です。当手法は対照的学習に基づいており、同じ録音から抽出された音声セグメントには高い類似性を、異なる録音からのセグメントには低い類似性を割り当てるように表現を学習します。私たちは、コンピュータビジョンと強化学習における最近の対照的学習の進歩に基づき、軽量で実装が容易な音声の自己監督モデルを設計しました。大規模なAudiosetデータベース上で埋め込みを事前学習し、これらの表現をスピーチ、音楽、動物の鳴き声、および聴覚シーンなど9つの多様な分類タスクに転移させました。当手法は単純であるにもかかわらず、以前の自己監督システムよりも著しく優れた性能を示しています。さらに、アブレーションスタディを行い、重要な設計選択肢を特定し、COLAモデルの事前学習と微調整を行うためのライブラリを公開しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

対照学習による汎用音響表現の学習 | 記事 | HyperAI超神経