6ヶ月前

自然言語処理

視覚質問応答

アプローチ／フレームワーク

自然言語処理

マルチモーダル

Yung-Sung Chuang Chi-Liang Liu Hung-Yi Lee Lin-shan Lee

概要

近年、音声言語理解タスクに対するさまざまなエンドツーエンドモデルが検討されてきたが、本論文はおそらく、極めて困難なエンドツーエンド音声質問応答（SQA）タスクに挑戦した最初の知られている試みである。様々なテキスト処理タスクにおいて高い成功を収めたBERTモデルの学習アプローチに着想を得て、本研究では音声とテキストを統合的に学習するSpeechBERTモデルを提案する。このモデルは、ASR誤りが回答部分に含まれるデータセットにおいて、従来のASRを用いたカスケード型アーキテクチャ（ASR後に続くテキスト質問応答（TQA）モデル）よりも優れた性能を発揮した。その理由として、エンドツーエンドモデルがASRによる誤りが生じる前に音声データから情報を抽出できることが示された。さらに、提案するエンドツーエンドモデルとカスケード構造をアンサンブルすることで、さらに高い性能が達成された。本研究の成果は、エンドツーエンドSQAの可能性を示すとともに、BERTが多くのテキスト処理タスクに応用可能なように、SpeechBERTも他の多くの音声言語理解タスクへの応用が期待できる。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

自然言語処理

視覚質問応答

アプローチ／フレームワーク

自然言語処理

マルチモーダル

Yung-Sung Chuang Chi-Liang Liu Hung-Yi Lee Lin-shan Lee

概要

近年、音声言語理解タスクに対するさまざまなエンドツーエンドモデルが検討されてきたが、本論文はおそらく、極めて困難なエンドツーエンド音声質問応答（SQA）タスクに挑戦した最初の知られている試みである。様々なテキスト処理タスクにおいて高い成功を収めたBERTモデルの学習アプローチに着想を得て、本研究では音声とテキストを統合的に学習するSpeechBERTモデルを提案する。このモデルは、ASR誤りが回答部分に含まれるデータセットにおいて、従来のASRを用いたカスケード型アーキテクチャ（ASR後に続くテキスト質問応答（TQA）モデル）よりも優れた性能を発揮した。その理由として、エンドツーエンドモデルがASRによる誤りが生じる前に音声データから情報を抽出できることが示された。さらに、提案するエンドツーエンドモデルとカスケード構造をアンサンブルすることで、さらに高い性能が達成された。本研究の成果は、エンドツーエンドSQAの可能性を示すとともに、BERTが多くのテキスト処理タスクに応用可能なように、SpeechBERTも他の多くの音声言語理解タスクへの応用が期待できる。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています