Command Palette
Search for a command to run...
Zeyu Zhu Kevin Qinghong Lin Mike Zheng Shou

要約
学術発表動画は、研究のコミュニケーションにおいて不可欠なメディアとしてその重要性を増しているが、その制作プロセスは依然として極めて手間がかかり、数分間の動画作成に数時間に及ぶスライド作成、録音、編集作業が必要となることが一般的である。自然な動画とは異なり、発表動画の生成には特有の課題が伴う。具体的には、研究論文からの入力、テキスト・図表・表といった高密度なマルチモーダル情報の扱い、そしてスライド、字幕、音声、話者(発表者)の映像といった複数の同期されたチャネルを統合的に制御する必要がある点が挙げられる。これらの課題に対応するため、本研究では、101編の研究論文とその著者によって作成された発表動画、スライド、話者メタデータを対応付ける、世界初のベンチマーク「PaperTalker」を提案する。さらに、動画が論文の情報を聴衆にどれだけ正確に伝えるかを評価するため、4つの特化型評価指標——Meta Similarity、PresentArena、PresentQuiz、IP Memory——を設計した。この基盤の上に、学術発表動画生成のための世界初のマルチエージェントフレームワーク「PaperTalker」を提案する。本フレームワークは、新規に開発した効果的なツリー探索による視覚的選択とカーソル位置の正確なマッピング、字幕生成、音声合成、および話者顔面のリアルなレンダリングを統合的に実現しつつ、スライド単位での並列生成により効率性を確保している。Paper2Videoにおける実験結果から、本手法により生成された発表動画は既存のベースラインに比べ、より忠実かつ情報量に富んでいることが明らかになった。これにより、自動化され、即時利用可能な学術動画生成の実現に向けた実用的な一歩が踏み出された。本研究で開発したデータセット、エージェント、コードは、https://github.com/showlab/Paper2Video にて公開されている。