6ヶ月前

マルチモーダル

マルチモーダル表現

音声および音声処理

オーディオ

マルチモーダル

Christophe Cerisara Romain Serizel F ́elix Gontier

概要

自動音声キャプションは、自然な言語で環境音声記録を記述するマルチモーダルタスクである。現在の大多数の手法は、音声入力から関連する意味情報を抽出するために事前学習された分析モデルを用いている。しかし、言語モデリングに関する事前知識はほとんど導入されておらず、データ不足のため対応するアーキテクチャの表現能力に限界がある。本論文では、汎用的な事前学習を施した大規模な条件付き言語モデルであるBARTに含まれる言語情報を利用した手法を提案する。キャプション生成は、テキスト形式のAudioSetタグの系列に条件付けられる。この入力は、時間的に整合された音声埋め込みによって拡張されており、これにより音声イベント認識の精度が向上する。全構造のBARTアーキテクチャを、追加パラメータを最小限に抑えて微調整する。実験結果から、アーキテクチャのスケーラビリティを超えて、単一言語の事前学習がマルチモーダルな音声キャプション設定においてテキスト品質を向上させることを示した。最良のモデルはAudioCapsにおいて46.5 SPIDErという最先端の性能を達成した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチモーダル表現

音声および音声処理

オーディオ

マルチモーダル

Christophe Cerisara Romain Serizel F ́elix Gontier

概要

自動音声キャプションは、自然な言語で環境音声記録を記述するマルチモーダルタスクである。現在の大多数の手法は、音声入力から関連する意味情報を抽出するために事前学習された分析モデルを用いている。しかし、言語モデリングに関する事前知識はほとんど導入されておらず、データ不足のため対応するアーキテクチャの表現能力に限界がある。本論文では、汎用的な事前学習を施した大規模な条件付き言語モデルであるBARTに含まれる言語情報を利用した手法を提案する。キャプション生成は、テキスト形式のAudioSetタグの系列に条件付けられる。この入力は、時間的に整合された音声埋め込みによって拡張されており、これにより音声イベント認識の精度が向上する。全構造のBARTアーキテクチャを、追加パラメータを最小限に抑えて微調整する。実験結果から、アーキテクチャのスケーラビリティを超えて、単一言語の事前学習がマルチモーダルな音声キャプション設定においてテキスト品質を向上させることを示した。最良のモデルはAudioCapsにおいて46.5 SPIDErという最先端の性能を達成した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています