
要約
人間の非言語的発声(非言語音声)の認識は重要なタスクであり、自動音声転写や健康状態モニタリングなど、広範な応用が期待されている。しかし、既存のデータセットは発声サンプル数が比較的少なく、ラベルがノイズを含むものが多いという課題を抱えている。その結果、最先端の音声イベント分類モデルが人間の発声を正確に検出する能力に限界が生じる場合がある。本研究では、耐障害性と精度の高い発声認識モデルの構築を支援するため、3,365人の個別被験者から収集された、笑い声、ため息、咳、喉の掃除音、くしゃみ、鼻をすする音の合計21,000件以上のクラウドソーシングによる録音から構成される「VocalSoundデータセット」を構築した。実験の結果、既存のデータセットにVocalSoundデータセットを追加することで、モデルの発声認識性能が41.9%向上することが明らかになった。さらに、従来のデータセットとは異なり、VocalSoundデータセットは話者年齢、性別、母語、国、健康状態といったメタ情報も含んでいる。