18日前

音声キャプションTransformerの性能向上のための転移学習および補助学習の再考

{Sung Won Han, Seungjin Lee, Dongwon Kim, Jin Sob Kim, Hyun Joon Park, WooSeok Shin}
要約

自動音声キャプション(AAC)の性能は、トランスフォーマーに基づくエンコーダーと転移学習を用いることで著しく向上している。しかし、その性能向上には以下の課題が制約要因となっている:(1)事前学習段階と微調整段階における入力パッチサイズの不一致、(2)入力とキャプションの間の局所レベルの関係の欠如。本論文では、従来の手法とは異なり、入力パッチサイズを維持するシンプルな転移学習スキームを提案する。これにより、入力の不一致を回避する。さらに、注意機構を用いたプーリング手法を活用し、グローバルレベルおよび局所レベルの情報を効果的に表現するパッチ単位のキーワード推定ブランチを提案する。AudioCapsデータセットにおける実験結果から、提案する学習スキームおよび手法が性能向上に著しい貢献を果たしていることが示された。最終的に、可視化結果により、提案する注意プーリング手法がAACシステムにおいて局所レベルの情報を効果的に検出できることを確認した。