8ヶ月前

概要

音響イベント検出（SED）は、音響信号内の特定の音とその時間的位置を認識するために不可欠です。特にデバイス上で実行されるアプリケーションでは、計算リソースが限られているため、この課題は難易度が高くなります。本研究では、この問題に対処するため、効率的なSEDシステムを開発する新しいフレームワークとして双方向知識蒸留（Dual Knowledge Distillation）を提案します。提案する双方向知識蒸留は、まず時間平均化知識蒸留（Temporal-Averaging Knowledge Distillation: TAKD）から始まります。これは、学生モデルのパラメータの時間平均を使用して得られる平均学生モデルを利用することで、事前学習された教師モデルから間接的に学習させる方法です。これにより、安定した知識蒸留が保証されます。その後、埋め込み強化特徴量蒸留（Embedding-Enhanced Feature Distillation: EEFD）を導入します。EEFDでは、学生モデル内に埋め込み蒸留層を組み込むことで文脈学習を強化します。DCASE 2023 タスク4A公開評価データセットにおいて、提案する双方向知識蒸留を用いたSEDシステムはベースラインモデルのパラメータ数の3分の1しか持たないにもかかわらず、PSDS1およびPSDS2において優れた性能を示しました。これは、小型のSEDシステムにとって提案手法である双方向知識蒸留が重要な役割を果たすことを示しており、エッジデバイスでの利用に最適であることがわかります。

ソースPDF