HyperAIHyperAI

Command Palette

Search for a command to run...

FunCineForge:多様な映画シーンにおけるゼロショット映画吹き替えのための統合データセットツールキットおよびモデル

Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling

概要

映画の吹き替えは、映像シーンに条件付けられた台本から音声を合成するタスクであり、正確な口形同期、忠実な音色転写、キャラクターの同一性および感情の適切なモデリングを要する。しかし、既存の手法には二つの主要な限界が存在する。(1)高品質なマルチモーダル吹き替えデータセットは規模が限られ、単語誤り率が高く、注釈が希薄であり、高コストな手動アノテーションに依存し、独白シーンに限定されている。これらの要因が効果的なモデル訓練を阻害している。(2)既存の吹き替えモデルは、音声・視覚の整合性を学習する際に唇領域のみに依存しており、その結果、複雑な実写映画シーンへの適用性が制限され、口形同期、音声品質、感情的表現力において最適でない性能を示す。これらの課題に対処するため、本研究では FunCineForge を提案する。これは大規模吹き替えデータセットの構築に向けたエンドツーエンドのプロダクションパイプラインと、多様な映画シーンに対応するように設計された MLLM ベースの吹き替えモデルで構成される。本パイプラインを用いることで、豊富な注釈を備えた初の中国語テレビ吹き替えデータセットを構築し、そのデータの高精度を実証した。独白、ナレーション、対話、複数話者シーンにおける実験により、提案する吹き替えモデルは、音声品質、口形同期、音色転写、指示追従のすべての指標において、SOTA 手法を一貫して上回ることを確認した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています