17日前
AudioCaps:オーディオのワイルドな状況におけるキャプション生成
{Chris Dongjoo Kim, Byeongchang Kim, Hyunmin Lee, Gunhee Kim}

要約
音声キャプション生成(Audio Captioning)という問題に取り組む。これは、実世界のあらゆる種類の音声に対して自然言語による記述を生成するという課題であり、これまでの研究では驚くほど未開拓であった。本研究では、AudioSetデータセットを基にクラウドソーシングにより収集した、46,000件の音声クリップとそれに紐づく人間が作成したテキストペアからなる大規模なデータセットを構築した。徹底的な実証的研究を通じて、収集したキャプションが音声入力に対して実際には忠実であることを示しただけでなく、音声キャプションに有効な音声表現形式やモデル構造の特性についても明らかにした。広範な実験の結果、音声キャプション性能を向上させるために、2つの新規な構成要素を提案する。一つはトップダウン型のマルチスケールエンコーダーであり、もう一つは整合された意味的アテンション(aligned semantic attention)である。