8ヶ月前

マルチモーダル

ビデオ理解

視覚質問応答

マルチモーダル

コンピュータビジョン

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

概要

視覚音声認識（VSR）は、コンピュータビジョンと音声認識の交差点に位置し、視覚的な手がかりから話された内容を解釈することを目指しています。VSRにおける主要な課題の一つは、異なる音素を表すにもかかわらず視覚的に類似した唇の動き（ホモフォン）の存在です。これまでのアプローチでは、視覚と聴覚の意味論を合わせることで細かいビゼームを区別しようと試みられてきましたが、しばしば完全な同期には至らなかったのが現状でした。これを解決するため、本研究ではSyncVSRというエンドツーエンド学習フレームワークを提案します。SyncVSRは量子化された音声データを使用してフレームレベルでのクロスモーダル監督を行います。視覚表現と音響データを同期させる射影層を統合することで、エンコーダーは非自己回帰的な方法でビデオシーケンスから離散的な音声トークンを生成するよう学習します。SyncVSRはタスク、言語、モダリティ間で多様性を持ちつつも、順方向パスにコストがかかります。我々の実証評価では、SyncVSRが最先端の結果を達成するとともに、最大で9倍のデータ使用量削減も示されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

ビデオ理解

視覚質問応答

マルチモーダル

コンピュータビジョン

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

概要

視覚音声認識（VSR）は、コンピュータビジョンと音声認識の交差点に位置し、視覚的な手がかりから話された内容を解釈することを目指しています。VSRにおける主要な課題の一つは、異なる音素を表すにもかかわらず視覚的に類似した唇の動き（ホモフォン）の存在です。これまでのアプローチでは、視覚と聴覚の意味論を合わせることで細かいビゼームを区別しようと試みられてきましたが、しばしば完全な同期には至らなかったのが現状でした。これを解決するため、本研究ではSyncVSRというエンドツーエンド学習フレームワークを提案します。SyncVSRは量子化された音声データを使用してフレームレベルでのクロスモーダル監督を行います。視覚表現と音響データを同期させる射影層を統合することで、エンコーダーは非自己回帰的な方法でビデオシーケンスから離散的な音声トークンを生成するよう学習します。SyncVSRはタスク、言語、モダリティ間で多様性を持ちつつも、順方向パスにコストがかかります。我々の実証評価では、SyncVSRが最先端の結果を達成するとともに、最大で9倍のデータ使用量削減も示されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています