8ヶ月前

マルチモーダル

ビデオ理解

音声および音声処理

オーディオ

マルチモーダル

コンピュータビジョン

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

概要

視覚的な音声認識モデルは階層的な方法で視覚特徴を抽出します。下位レベルでは、唇や顔を描写する生のピクセルを処理する時間的感受野が限定された視覚フロントエンドがあります。上位レベルでは、大規模な時間的感受野にわたるフロントエンドによって生成された埋め込みに注目するエンコーダーがあります。これまでの研究では、音声認識に役立つより有用な特徴を抽出するために、視覚フロントエンドの改善に焦点が当てられてきました。しかし、私たちの研究では驚くべき結果が得られました。複雑な視覚フロントエンドは必ずしも必要ではなく、リソースを高度な視覚フロントエンドに割り当てる代わりに、線形の視覚フロントエンドと大規模なConformerエンコーダー（コンフォーマーエンコーダー）の組み合わせの方が低遅延、効率的なメモリ使用、および改善されたWER性能を達成することがわかりました。私たちはTED LRS3データセットにおける視覚的な音声認識において12.8%のWERという新しい最先端の成果を達成しました。これは4年前のオーディオのみのモデルと同等の性能を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

ビデオ理解

音声および音声処理

オーディオ

マルチモーダル

コンピュータビジョン

Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan

概要

視覚的な音声認識モデルは階層的な方法で視覚特徴を抽出します。下位レベルでは、唇や顔を描写する生のピクセルを処理する時間的感受野が限定された視覚フロントエンドがあります。上位レベルでは、大規模な時間的感受野にわたるフロントエンドによって生成された埋め込みに注目するエンコーダーがあります。これまでの研究では、音声認識に役立つより有用な特徴を抽出するために、視覚フロントエンドの改善に焦点が当てられてきました。しかし、私たちの研究では驚くべき結果が得られました。複雑な視覚フロントエンドは必ずしも必要ではなく、リソースを高度な視覚フロントエンドに割り当てる代わりに、線形の視覚フロントエンドと大規模なConformerエンコーダー（コンフォーマーエンコーダー）の組み合わせの方が低遅延、効率的なメモリ使用、および改善されたWER性能を達成することがわかりました。私たちはTED LRS3データセットにおける視覚的な音声認識において12.8%のWERという新しい最先端の成果を達成しました。これは4年前のオーディオのみのモデルと同等の性能を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています