HyperAIHyperAI

Command Palette

Search for a command to run...

キーワードスポットティングにおける効率的表現学習:トライプレット損失を用いた手法

Roman Vygon Nikolay Mikhaylovskiy

概要

近年、三重組(triplet loss)に基づくメトリック埋め込みは、特に人物再識別(person reidentification)をはじめとするいくつかの重要なコンピュータビジョン課題において、実質的な標準となりつつある。一方、音声認識分野では、三重組損失によって生成されるメトリック埋め込みが、分類問題に対してもほとんど用いられていない。本研究では、三重組損失に基づく埋め込みと、交差エントロピー損失の代わりにkNNの変種を用いた分類手法を組み合わせることで、LibriSpeechから派生したLibriWordsデータセットにおいて、畳み込みニューラルネットワークの分類精度が26%~38%向上することを示した。この目的のため、音声の類似性に基づく新しい三重組マイニング手法を提案する。さらに、Google Speech CommandsデータセットV1 10+2クラス分類において、既存の最良の公開SOTA(state-of-the-art)を約34%向上させ、98.55%の精度を達成。V2 10+2クラス分類では約20%向上し、98.37%の精度を達成。また、V2 35クラス分類では50%以上も向上し、97.0%の精度を実現した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています