8ヶ月前

概要

最近の自動機械翻訳システムにおける画期的な進展を踏まえ、私たちは「フェイス・トゥ・フェイス翻訳（Face-to-Face Translation）」と呼ぶ新しい手法を提案します。今日のデジタル通信がますます視覚的になる中、私たちは言語Aで話している人のビデオをリアルな口唇同期を伴って目標言語Bに自動的に翻訳するシステムの必要性を主張します。本研究では、この問題に対する自動パイプラインを作成し、その実世界での複数のアプリケーションへの影響を示します。まず、音声から音声への翻訳システムを構築するために、既存の音声および言語モジュールを組み合わせました。次に、「フェイス・トゥ・フェイス翻訳」に向けて、翻訳された音声から現実的な話し顔を生成する新しい視覚モジュールであるLipGANを取り入れました。LipGANの標準LRWテストセットにおける定量評価は、すべての標準指標において既存の手法を大幅に上回っていることを示しています。また、私たちのフェイス・トゥ・フェイス翻訳パイプラインについて複数の人間評価を行い、異なる言語間でのマルチモーダルコンテンツの消費や相互作用における全体的なユーザーエクスペリエンスが大幅に向上することを示しました。コード、モデル、およびデモンストレーションビデオは公開されています。デモンストレーションビデオ: https://www.youtube.com/watch?v=aHG6Oei8jF0 コードとモデル: https://github.com/Rudrabha/LipGAN

ソースPDF コードを表示