8ヶ月前

マルチモーダル

音声および音声処理

オーディオ

マルチモーダル

Pingchuan Ma Stavros Petridis Maja Pantic

概要

本研究では、ResNet-18と畳み込み強化型トランスフォーマー（Conformer）を基にしたハイブリッドCTC/アテンションモデルを提案します。特に、このモデルは音声と視覚のエンコーダがそれぞれ生のピクセルと音声波形から特徴量を直接抽出し、それらがConformerに入力され、その後マルチレイヤーパーセプトロン（MLP）を介して融合されます。モデルはCTCとアテンション機構の組み合わせを使用して文字を認識することを学習します。私たちは、文献で一般的な事前計算された視覚特徴量の使用ではなくエンドツーエンドでの学習、再帰ネットワークではなくConformerの使用、そしてトランスフォーマーに基づく言語モデルの使用が、我々のモデルの性能を大幅に向上させることを示しています。また、文レベルの音声認識に関する最大規模の公開データセットであるLip Reading Sentences 2 (LRS2)およびLip Reading Sentences 3 (LRS3)での実験結果を報告します。これらの結果は、提案したモデルが音声のみ、視覚のみ、および音声・視覚併用の実験において現行最先端の性能を大幅に上回ることを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

音声および音声処理

オーディオ

マルチモーダル

Pingchuan Ma Stavros Petridis Maja Pantic

概要

本研究では、ResNet-18と畳み込み強化型トランスフォーマー（Conformer）を基にしたハイブリッドCTC/アテンションモデルを提案します。特に、このモデルは音声と視覚のエンコーダがそれぞれ生のピクセルと音声波形から特徴量を直接抽出し、それらがConformerに入力され、その後マルチレイヤーパーセプトロン（MLP）を介して融合されます。モデルはCTCとアテンション機構の組み合わせを使用して文字を認識することを学習します。私たちは、文献で一般的な事前計算された視覚特徴量の使用ではなくエンドツーエンドでの学習、再帰ネットワークではなくConformerの使用、そしてトランスフォーマーに基づく言語モデルの使用が、我々のモデルの性能を大幅に向上させることを示しています。また、文レベルの音声認識に関する最大規模の公開データセットであるLip Reading Sentences 2 (LRS2)およびLip Reading Sentences 3 (LRS3)での実験結果を報告します。これらの結果は、提案したモデルが音声のみ、視覚のみ、および音声・視覚併用の実験において現行最先端の性能を大幅に上回ることを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

End-to-end Audio-visual Speech Recognition with Conformers コンフォーマーを用いたエンドツーエンド音声視覚的な音声認識 | 記事 | HyperAI超神経