6ヶ月前

音声および音声処理

マルチモーダル

オーディオ

マルチモーダル

Chris Dongjoo Kim Byeongchang Kim Hyunmin Lee Gunhee Kim

概要

音声キャプション生成（Audio Captioning）という問題に取り組む。これは、実世界のあらゆる種類の音声に対して自然言語による記述を生成するという課題であり、これまでの研究では驚くほど未開拓であった。本研究では、AudioSetデータセットを基にクラウドソーシングにより収集した、46,000件の音声クリップとそれに紐づく人間が作成したテキストペアからなる大規模なデータセットを構築した。徹底的な実証的研究を通じて、収集したキャプションが音声入力に対して実際には忠実であることを示しただけでなく、音声キャプションに有効な音声表現形式やモデル構造の特性についても明らかにした。広範な実験の結果、音声キャプション性能を向上させるために、2つの新規な構成要素を提案する。一つはトップダウン型のマルチスケールエンコーダーであり、もう一つは整合された意味的アテンション（aligned semantic attention）である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチモーダル

オーディオ

マルチモーダル

Chris Dongjoo Kim Byeongchang Kim Hyunmin Lee Gunhee Kim

概要

音声キャプション生成（Audio Captioning）という問題に取り組む。これは、実世界のあらゆる種類の音声に対して自然言語による記述を生成するという課題であり、これまでの研究では驚くほど未開拓であった。本研究では、AudioSetデータセットを基にクラウドソーシングにより収集した、46,000件の音声クリップとそれに紐づく人間が作成したテキストペアからなる大規模なデータセットを構築した。徹底的な実証的研究を通じて、収集したキャプションが音声入力に対して実際には忠実であることを示しただけでなく、音声キャプションに有効な音声表現形式やモデル構造の特性についても明らかにした。広範な実験の結果、音声キャプション性能を向上させるために、2つの新規な構成要素を提案する。一つはトップダウン型のマルチスケールエンコーダーであり、もう一つは整合された意味的アテンション（aligned semantic attention）である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています