18日前
音声・言語学習におけるトレイン時およびテスト時オーギュメンテーションの探求
Eungbeom Kim, Jinhee Kim, Yoori Oh, Kyungsu Kim, Minju Park, Jaeheon Sim, Jinwoo Lee, Kyogu Lee

要約
本稿では、音声・言語マルチモーダル学習におけるデータ拡張の影響を解明することを目的とする。その重要性は広く認識されているが、これまで十分に調査されていなかった。我々は、訓練時だけでなくテスト時にもさまざまなデータ拡張手法を検討し、適切なデータ拡張が顕著な性能向上をもたらすことを明らかにした。特に、初めて提案されるマルチモーダル音声・言語ペア拡張手法であるPairMixを適用することで、自動音声キャプションおよび音声・テキスト検索の両タスクにおいて、従来手法を上回る性能を達成した。データ拡張の効果を最大限に引き出すために、テスト時における多段階拡張(Multi-TTA)も提案した。本研究で提案する2つの手法と単モーダル拡張を統合した結果、音声キャプションタスクにおいて47.5のSPIDErを達成し、ベースライン比で18.2%の相対的向上を実現した。また、音声・テキスト検索タスクにおいても、提案手法による性能向上が確認された。