HyperAIHyperAI

Command Palette

Search for a command to run...

潜在動画変換器

Ruslan Rakhimov Denis Volkhonskiy Alexey Artemov Denis Zorin Evgeny Burnaev

概要

動画生成タスクは、過去のフレームをもとに将来のフレームを予測する問題として定式化できる。近年の動画生成モデルは、高い計算リソースを要するという課題に直面している。一部のモデルでは、並列学習に最大で512個のTensor Processing Unit(TPU)を必要とする場合もある。本研究では、潜在空間(latent space)における動的挙動をモデル化することでこの課題に取り組む。映像フレームを潜在空間に変換した後、モデルは自己回帰的(autoregressive)な手法により次のフレームの潜在表現を予測する。本手法の有効性をBAIR Robot PushingおよびKinetics-600データセット上で実証した。その結果、モデルの学習に必要なリソースを従来の要件から8個のグラフィックス処理ユニット(GPU)まで削減しつつ、同等の生成品質を維持できることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
潜在動画変換器 | 記事 | HyperAI超神経