8ヶ月前

概要

自己監督学習（Self-Supervised Learning: SSL）は、音響表現を学習するための人気のある手法として注目を集めています。音響自己監督事前学習の目的の一つは、クリップレベルとフレームレベルの下流タスクに知識を転移することです。フレームレベルのタスクは、詳細な音響シーン/イベント理解のために重要ですが、これまでの研究では主にクリップレベルの下流タスクで評価が行われてきました。本論文では、クリップレベルとフレームレベルの両方のタスクに対処するために、Audio Teacher-Student Transformer (ATST) を提案します。この手法には、クリップレベル版（ATST-Clip）とフレームレベル版（ATST-Frame）があり、それぞれがクリップレベルとフレームレベルの表現を学習します。両方法ともTransformerエンコーダーと教師-生徒訓練スキーマを使用しています。私たちは慎重にATST-ClipおよびATST-Frameのビュー作成戦略を設計しました。具体的には、ATST-Clipはセグメント単位でのデータ拡張を使用し、ATST-Frameはフレーム単位でのデータ拡張とマスキングを組み合わせています。実験結果は、私たちのATST-Frameモデルがほとんどのクリップレベルおよびフレームレベルの下流タスクで最先端（State-of-the-Art: SOTA）の性能を達成していることを示しています。特に、フレームレベルのサウンドイベント検出タスクにおいて他のモデルを大幅に上回る性能を発揮しています。さらに、知識蒸留を通じて両モデルを組み合わせることにより、性能が更に向上することが確認されています。私たちのコードはオンラインで公開されています。

ソースPDF