15日前

再生してみよう：音声認識のための反復的アテンション

Alexandros Stergiou, Dima Damen

要約

聴覚認知の重要な機能の一つは、時間の経過に伴い特徴的な音響をその意味内容と関連付けることである。微細な音声カテゴリを区別しようとする際、人間はしばしば識別に寄与する音声を繰り返し再生することで、予測の信頼性を高める。本研究では、選択的再再生を通じて音声系列全体にわたって最も識別的な音声に注目する、エンドツーエンド型のアテンションベースのアーキテクチャを提案する。本モデルは初期段階で音声系列全体を用い、スロットアテンションに基づいて反復的に時間的セグメントの再再生を精緻化する。各再生において、選択されたセグメントはより小さなホップ長で再再生され、これによりそのセグメント内における高解像度の特徴が表現される。実験の結果、本手法はAudioSet、VGG-Sound、EPIC-KITCHENS-100の3つの音声分類ベンチマークにおいて、一貫して最先端の性能を達成できることを示した。