HyperAIHyperAI

Command Palette

Search for a command to run...

ダイナミクス感知型 Implicit Generative Adversarial Networks を用いた動画生成

Sihyun Yu Jihoon Tack Sangwoo Mo Hyunsu Kim Junho Kim Jung-Woo Ha Jinwoo Shin

概要

深層学習の時代において、動画の空間時間的複雑性および連続性のため、高品質な長時間動画生成は依然として大きな課題である。従来の先行研究では、動画をRGB値の3次元グリッドとして表現することで動画分布をモデル化しようとする試みがなされてきたが、これにより生成動画のスケールが制限され、連続的な運動ダイナミクスが無視されるという問題があった。本論文では、連続信号をパラメータ化されたニューラルネットワークに符号化する近年注目されている暗黙的ニューラル表現(Implicit Neural Representations, INRs)のアプローチが、この課題を効果的に緩和できることを見出した。INRsを動画に応用することで、本研究では動画生成のための新たな生成的対抗ネットワークである「動的意識型暗黙的生成対抗ネットワーク(Dynamics-aware Implicit Generative Adversarial Network, DIGAN)」を提案する。具体的には、(a) 空間座標と時間座標を異なる方法で操作することで運動ダイナミクスを改善するINRベースの動画生成器、および (b) 全ての長時間フレームシーケンスを観測せずに不自然な運動を効率的に識別する運動識別器の導入を実現した。我々は、さまざまなデータセットにおいてDIGANの優位性を実証し、長時間動画合成、動画外挿、非逐次的(non-autoregressive)動画生成といった興味深い特性も示した。例えば、UCF-101データセットにおいて、DIGANは従来の最先端手法に対してFVDスコアを30.7%向上させ、128×128解像度の128フレームの動画を学習可能であり、従来手法の48フレームよりも80フレーム長く生成可能な点が特徴である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています