16日前

スペクトル補正:記録デバイスの不一致を伴う音響シーン分類

Michał Kośmider
スペクトル補正:記録デバイスの不一致を伴う音響シーン分類
要約

音声認識用の機械学習アルゴリズムは、限定されたデバイス群からの音声記録データで訓練された場合、周波数応答が異なる他のデバイスで録音されたサンプルに対して一般化性能が低下する可能性がある。本研究では、この問題に対処する比較的単純な手法を提案する。本手法には2つのバリエーションが存在する。1つ目は複数のデバイスから得られた対応するサンプル(アライメント済み例)を必要とするが、2つ目のアプローチではこの要件を緩和する。本手法は、音声記録の時間領域表現および周波数領域表現の両方に対応可能である。さらに、標準化(standardization)およびセプストラル平均減算(Cepstral Mean Subtraction, CMS)との関係についても分析している。提案手法は、非常に少数のサンプルしか提供されない状況下でも有効であることが示された。本手法は、音響シーンおよび音響イベントの検出・分類(Detection and Classification of Acoustic Scenes and Events, DCASE)2019チャレンジの開発過程で構築され、録音デバイスの不一致を想定したシナリオにおいて75%の精度で1位を獲得した。実験に使用したソースコードはオンラインで公開されている。

スペクトル補正:記録デバイスの不一致を伴う音響シーン分類 | 最新論文 | HyperAI超神経