8日前

ピクセルを踊らせよう:高ダイナミックレンジ動画生成

Yan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei, Yuchen Zhang, Hang Li
ピクセルを踊らせよう:高ダイナミックレンジ動画生成
要約

テキストから動画を生成する手法が主流を占める現在の最先端動画生成技術では、動きが豊富な動作や高度なビジュアルエフェクトを含む高ダイナミックな動画を作成することは、人工知能分野における大きな課題である。現状の手法は、高精細度を維持する一方で、実際の動きが極めて限定的である動画クリップを生成しがちである。本研究では、動画生成においてテキスト指示のみに依存することは不十分であり、最適ではないと主張する。本論文では、拡散モデルを基盤とする新規手法「PixelDance」を提案する。この手法は、動画生成において、テキスト指示に加え、最初のフレームおよび最後のフレームに画像指示を組み込むことで、より正確かつ自然な運動の再現を実現する。包括的な実験結果により、公開データで学習させたPixelDanceが、複雑なシーンや繊細な動きを含む動画の合成において、従来の手法と比べて顕著な優位性を示すことが確認された。これにより、動画生成の新たな基準が確立された。

ピクセルを踊らせよう:高ダイナミックレンジ動画生成 | 最新論文 | HyperAI超神経