HyperAIHyperAI

Command Palette

Search for a command to run...

音声キャプションTransformerの性能向上のための転移学習および補助学習の再考

Sung Won Han Seungjin Lee Dongwon Kim Jin Sob Kim Hyun Joon Park WooSeok Shin

概要

自動音声キャプション(AAC)の性能は、トランスフォーマーに基づくエンコーダーと転移学習を用いることで著しく向上している。しかし、その性能向上には以下の課題が制約要因となっている:(1)事前学習段階と微調整段階における入力パッチサイズの不一致、(2)入力とキャプションの間の局所レベルの関係の欠如。本論文では、従来の手法とは異なり、入力パッチサイズを維持するシンプルな転移学習スキームを提案する。これにより、入力の不一致を回避する。さらに、注意機構を用いたプーリング手法を活用し、グローバルレベルおよび局所レベルの情報を効果的に表現するパッチ単位のキーワード推定ブランチを提案する。AudioCapsデータセットにおける実験結果から、提案する学習スキームおよび手法が性能向上に著しい貢献を果たしていることが示された。最終的に、可視化結果により、提案する注意プーリング手法がAACシステムにおいて局所レベルの情報を効果的に検出できることを確認した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています