HyperAIHyperAI

Command Palette

Search for a command to run...

自動対面翻訳に向けて

Prajwal K R* Rudrabha Mukhopadhyay* Jerin Philip Abhishek Jha Vinay Namboodiri C. V. Jawahar

概要

最近の自動機械翻訳システムにおける画期的な進展を踏まえ、私たちは「フェイス・トゥ・フェイス翻訳(Face-to-Face Translation)」と呼ぶ新しい手法を提案します。今日のデジタル通信がますます視覚的になる中、私たちは言語Aで話している人のビデオをリアルな口唇同期を伴って目標言語Bに自動的に翻訳するシステムの必要性を主張します。本研究では、この問題に対する自動パイプラインを作成し、その実世界での複数のアプリケーションへの影響を示します。まず、音声から音声への翻訳システムを構築するために、既存の音声および言語モジュールを組み合わせました。次に、「フェイス・トゥ・フェイス翻訳」に向けて、翻訳された音声から現実的な話し顔を生成する新しい視覚モジュールであるLipGANを取り入れました。LipGANの標準LRWテストセットにおける定量評価は、すべての標準指標において既存の手法を大幅に上回っていることを示しています。また、私たちのフェイス・トゥ・フェイス翻訳パイプラインについて複数の人間評価を行い、異なる言語間でのマルチモーダルコンテンツの消費や相互作用における全体的なユーザーエクスペリエンスが大幅に向上することを示しました。コード、モデル、およびデモンストレーションビデオは公開されています。 デモンストレーションビデオ: https://www.youtube.com/watch?v=aHG6Oei8jF0 コードとモデル: https://github.com/Rudrabha/LipGAN


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています