HyperAIHyperAI

Command Palette

Search for a command to run...

自己監督音声教師-生徒トランスフォーマーによるクリップレベルおよびフレームレベルのタスクへの適用

Xian Li Nian Shao Xiaofei Li*

概要

自己監督学習(Self-Supervised Learning: SSL)は、音響表現を学習するための人気のある手法として注目を集めています。音響自己監督事前学習の目的の一つは、クリップレベルとフレームレベルの下流タスクに知識を転移することです。フレームレベルのタスクは、詳細な音響シーン/イベント理解のために重要ですが、これまでの研究では主にクリップレベルの下流タスクで評価が行われてきました。本論文では、クリップレベルとフレームレベルの両方のタスクに対処するために、Audio Teacher-Student Transformer (ATST) を提案します。この手法には、クリップレベル版(ATST-Clip)とフレームレベル版(ATST-Frame)があり、それぞれがクリップレベルとフレームレベルの表現を学習します。両方法ともTransformerエンコーダーと教師-生徒訓練スキーマを使用しています。私たちは慎重にATST-ClipおよびATST-Frameのビュー作成戦略を設計しました。具体的には、ATST-Clipはセグメント単位でのデータ拡張を使用し、ATST-Frameはフレーム単位でのデータ拡張とマスキングを組み合わせています。実験結果は、私たちのATST-Frameモデルがほとんどのクリップレベルおよびフレームレベルの下流タスクで最先端(State-of-the-Art: SOTA)の性能を達成していることを示しています。特に、フレームレベルのサウンドイベント検出タスクにおいて他のモデルを大幅に上回る性能を発揮しています。さらに、知識蒸留を通じて両モデルを組み合わせることにより、性能が更に向上することが確認されています。私たちのコードはオンラインで公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
自己監督音声教師-生徒トランスフォーマーによるクリップレベルおよびフレームレベルのタスクへの適用 | 記事 | HyperAI超神経