17日前

キーワードスポットティングにおける効率的表現学習:トライプレット損失を用いた手法

Roman Vygon, Nikolay Mikhaylovskiy
キーワードスポットティングにおける効率的表現学習:トライプレット損失を用いた手法
要約

近年、三重組(triplet loss)に基づくメトリック埋め込みは、特に人物再識別(person reidentification)をはじめとするいくつかの重要なコンピュータビジョン課題において、実質的な標準となりつつある。一方、音声認識分野では、三重組損失によって生成されるメトリック埋め込みが、分類問題に対してもほとんど用いられていない。本研究では、三重組損失に基づく埋め込みと、交差エントロピー損失の代わりにkNNの変種を用いた分類手法を組み合わせることで、LibriSpeechから派生したLibriWordsデータセットにおいて、畳み込みニューラルネットワークの分類精度が26%~38%向上することを示した。この目的のため、音声の類似性に基づく新しい三重組マイニング手法を提案する。さらに、Google Speech CommandsデータセットV1 10+2クラス分類において、既存の最良の公開SOTA(state-of-the-art)を約34%向上させ、98.55%の精度を達成。V2 10+2クラス分類では約20%向上し、98.37%の精度を達成。また、V2 35クラス分類では50%以上も向上し、97.0%の精度を実現した。