
要約
モバイル環境の計算リソース制約を考えると、デバイス内での音声分類モデルの性能向上は依然として課題である。多くの研究では、大規模モデルからデバイス内モデルへ知識を転移することで予測性能を向上させるため、知識蒸留(knowledge distillation)を活用している。しかし、多数の手法は音声分類タスクにおいて極めて重要な時系列情報の本質を効果的に蒸留するメカニズムを備えておらず、あるいは類似したアーキテクチャを前提としている。本論文では、大規模なTransformerベースのモデルの注目重み(attention weights)に埋め込まれた時系列的知識を、デバイス内モデルに効果的に統合できる新しい知識蒸留手法を提案する。本手法は、CNNやRNNといった注目機構を用いないアーキテクチャを含む多様なネットワーク構造に適用可能であり、推論時における元のネットワーク構造を保持することができる。音声イベント検出データセットおよびノイズのあるキーワード検出データセットを用いた広範な実験を通じて、提案手法が多様なデバイス内アーキテクチャにおいて予測性能の向上を実現できることを示した。