6ヶ月前

マルチモーダル

マルチモーダル表現

音声および音声処理

オーディオ

マルチモーダル

Bing Yang Zhan Chen Hong Liu

概要

現在の研究では、音声視覚語音認識（AVSR）において、代表的な視覚特徴の抽出と音声・視覚モダリティの効率的な統合が極めて重要であることが示されているが、これらの課題は依然として困難である。本研究では、双方向同期融合を用いたリップグラフ支援型AVSR手法を提案する。まず、画像ブランチとグラフブランチを組み合わせたハイブリッド視覚ストリームにより、判別力のある視覚特徴を抽出する。特に、リップグラフはリップのキーポイント間の自然かつ動的な接続関係を活用してリップ形状をモデル化し、その時間的変化はグラフ畳み込みネットワーク（GCN）と双方向ゲート付き再帰ユニット（Bi-GRU）を用いて捉える。次に、アテンションベースの双方向同期融合により、ハイブリッド視覚ストリームと音声ストリームを統合することで、両モダリティ間の非同期性を解消しつつ、双方向の情報連携を可能にする。LRW-BBCデータセットにおける実験結果から、本手法はクリーン環境およびノイズ環境の両方において、エンドツーエンドAVSRベースライン手法を上回ることを確認した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチモーダル表現

音声および音声処理

オーディオ

マルチモーダル

Bing Yang Zhan Chen Hong Liu

概要

現在の研究では、音声視覚語音認識（AVSR）において、代表的な視覚特徴の抽出と音声・視覚モダリティの効率的な統合が極めて重要であることが示されているが、これらの課題は依然として困難である。本研究では、双方向同期融合を用いたリップグラフ支援型AVSR手法を提案する。まず、画像ブランチとグラフブランチを組み合わせたハイブリッド視覚ストリームにより、判別力のある視覚特徴を抽出する。特に、リップグラフはリップのキーポイント間の自然かつ動的な接続関係を活用してリップ形状をモデル化し、その時間的変化はグラフ畳み込みネットワーク（GCN）と双方向ゲート付き再帰ユニット（Bi-GRU）を用いて捉える。次に、アテンションベースの双方向同期融合により、ハイブリッド視覚ストリームと音声ストリームを統合することで、両モダリティ間の非同期性を解消しつつ、双方向の情報連携を可能にする。LRW-BBCデータセットにおける実験結果から、本手法はクリーン環境およびノイズ環境の両方において、エンドツーエンドAVSRベースライン手法を上回ることを確認した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています