HyperAI超神经

首页资讯论文教程数据集百科 SOTA LLM 模型天梯 GPU 天梯顶会

中文

HyperAI超神经

Video Prediction On Kinetics 600 12 Frames

评估指标

Cond

FVD

Pred

评测结果

各个模型在此基准测试上的表现结果

模型名称	Cond	FVD	Pred	Paper Title	Repository
Video Transformer	5	170±5	11	Scaling Autoregressive Video Models
OmniTokenizer-AR	-	32.9	-	OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation
LARP	5	5.1	11	LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior
DVD-GAN-FP	5	69.15±0.78	11	Adversarial Video Generation on Complex Datasets
LVT	5	224.73	11	Latent Video Transformer
RIN (1000 steps)	-	10.8	-	Scalable Adaptive Computation for Iterative Generation
TriVD-GAN-FP	5	25.74±0.66	11	Transformation-based Adversarial Video Prediction on Large-Scale Data	-
MAGVIT (-L-FP)	5	9.9±0.3	11	MAGVIT: Masked Generative Video Transformer
MAGVIT-v2	-	4.3±0.1	-	Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation
CCVS	5	55±1	11	CCVS: Context-aware Controllable Video Synthesis
MAGVIT (-B-FP)	5	24.5±0.9	11	MAGVIT: Masked Generative Video Transformer
W.A.L.T.-L	-	3.3	-	Photorealistic Video Generation with Diffusion Models	-
Video VQ-VAE FVD	4	64.30±2.04	12	Predicting Video with VQVAE
RIN (400 steps)	-	11.5	-	Scalable Adaptive Computation for Iterative Generation
RaMViD	5	16.46	11	Diffusion Models for Video Prediction and Infilling

0 of 15 row(s) selected.