8ヶ月前

マルチモーダル

オーディオ

マルチモーダル

K R Prajwal Rudrabha Mukhopadhyay Vinay P. Namboodiri C V Jawahar

概要

人間は、音声が存在しないか外部ノイズによって乱される場合、会話の一部を口唇の動きから無意識に推測する傾向がある。本研究では、口唇の動きのみから自然な音声を生成するタスク、すなわち口唇から音声合成（lip to speech synthesis）について探求している。正確なリップリーディングにはコンテクスト情報や話者特有の手がかりが重要であることを認識し、既存の研究とは異なるアプローチを採用した。我々は、制約なしの大語彙設定において個々の話者の口唇シーケンスと音声との対応関係を学習することに焦点を当てている。この目的のために、自然な状況下で単一話者の口唇から音声合成タスクを訓練および評価するために使用できる大規模ベンチマークデータセットを収集し公開した。これは同種のものとしては初めての試みである。我々は、このような制約なしの状況下で初めて正確かつ自然な口唇から音声合成を達成するための新しい手法と重要な設計選択肢を提案する。定量的指標、定性的指標、および人間による評価を通じた広範な評価により、本方法がこの分野における従来の研究よりも4倍も理解しやすいことが示された。論文、手法、および定性的結果の概要については以下のデモ動画をご覧ください。https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

オーディオ

マルチモーダル

K R Prajwal Rudrabha Mukhopadhyay Vinay P. Namboodiri C V Jawahar

概要

人間は、音声が存在しないか外部ノイズによって乱される場合、会話の一部を口唇の動きから無意識に推測する傾向がある。本研究では、口唇の動きのみから自然な音声を生成するタスク、すなわち口唇から音声合成（lip to speech synthesis）について探求している。正確なリップリーディングにはコンテクスト情報や話者特有の手がかりが重要であることを認識し、既存の研究とは異なるアプローチを採用した。我々は、制約なしの大語彙設定において個々の話者の口唇シーケンスと音声との対応関係を学習することに焦点を当てている。この目的のために、自然な状況下で単一話者の口唇から音声合成タスクを訓練および評価するために使用できる大規模ベンチマークデータセットを収集し公開した。これは同種のものとしては初めての試みである。我々は、このような制約なしの状況下で初めて正確かつ自然な口唇から音声合成を達成するための新しい手法と重要な設計選択肢を提案する。定量的指標、定性的指標、および人間による評価を通じた広範な評価により、本方法がこの分野における従来の研究よりも4倍も理解しやすいことが示された。論文、手法、および定性的結果の概要については以下のデモ動画をご覧ください。https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

個々の話者の話し方を学習して正確な口唇から音声合成を行う | 記事 | HyperAI超神経