6ヶ月前

コンピュータビジョン

画像から動画生成

マルチモーダル

コンピュータビジョン

Sahil Goyal Shagun Uppal Sarthak Bhagat Yi Yu Yifang Yin Rajiv Ratn Shah

概要

いくつかの研究では、教育や動画における言語翻訳など、さまざまな現実世界の応用を想定して、唇の動きと一致する会話する顔の生成を実現するエンドツーエンドのパイプラインが開発されている。しかし、これらの先行研究は表情や感情の表現に十分な注意を払っておらず、現実的な外観を持つ動画を生成できていない。さらに、これらの手法の効果はトレーニングデータセットに含まれる顔に大きく依存しており、未見の顔に対しては性能が低下する可能性がある。これを緩和するため、分類された感情を条件として用いる会話する顔生成フレームワークを構築した。これにより、適切な表情を伴った動画を生成でき、より現実的かつ説得力のある結果が得られる。本研究では、喜び、悲しみ、恐怖、怒り、嫌悪、およびニュートラルの6種類の感情をカバーし、モデルが任意のアイデンティティ、感情、言語に適応可能であることを示した。提案するフレームワークは、感情を伴った会話する顔生成をリアルタイムで行えるユーザーに優しいWebインターフェースを備えており、インターフェースの使いやすさ、デザイン性、機能性について主観評価を目的としたユーザー調査も実施した。プロジェクトページ：https://midas.iiitd.edu.in/emo/

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

画像から動画生成

マルチモーダル

コンピュータビジョン

Sahil Goyal Shagun Uppal Sarthak Bhagat Yi Yu Yifang Yin Rajiv Ratn Shah

概要

いくつかの研究では、教育や動画における言語翻訳など、さまざまな現実世界の応用を想定して、唇の動きと一致する会話する顔の生成を実現するエンドツーエンドのパイプラインが開発されている。しかし、これらの先行研究は表情や感情の表現に十分な注意を払っておらず、現実的な外観を持つ動画を生成できていない。さらに、これらの手法の効果はトレーニングデータセットに含まれる顔に大きく依存しており、未見の顔に対しては性能が低下する可能性がある。これを緩和するため、分類された感情を条件として用いる会話する顔生成フレームワークを構築した。これにより、適切な表情を伴った動画を生成でき、より現実的かつ説得力のある結果が得られる。本研究では、喜び、悲しみ、恐怖、怒り、嫌悪、およびニュートラルの6種類の感情をカバーし、モデルが任意のアイデンティティ、感情、言語に適応可能であることを示した。提案するフレームワークは、感情を伴った会話する顔生成をリアルタイムで行えるユーザーに優しいWebインターフェースを備えており、インターフェースの使いやすさ、デザイン性、機能性について主観評価を目的としたユーザー調査も実施した。プロジェクトページ：https://midas.iiitd.edu.in/emo/

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています