HyperAIHyperAI

Command Palette

Search for a command to run...

BYOL-S:ブートストラップを用いた自己教師付き音声表現学習

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

概要

音声および話声特徴の抽出手法は、数十年前に遡るスペクトル解析の先駆的研究以来、長年にわたり研究されてきた。近年の取り組みは、汎用的な音声表現を構築することを目的としている。たとえば、大規模な音声データセット上で学習された深層ニューラルネットワークは、最適な埋め込み表現を抽出可能である。本研究では、自己教師学習に基づく既存手法をブートストラップによって拡張し、さまざまなエンコーダー構造を提案し、異なる事前学習データセットを用いることの影響を検討した。さらに、手作業で設計された特徴とデータ駆動型の学習特徴を統合する新たなハイブリッド音声表現を導くための訓練フレームワークを提示した。提案されたすべての表現は、HEAR NeurIPS 2021チャレンジにおける聴覚シーン分類およびタイムスタンプ検出タスクにおいて評価された。その結果、畳み込み型トランスフォーマーをエンコーダーとして用いたハイブリッドモデルが、多数のHEARチャレンジタスクにおいて優れた性能を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています