Startseite Neuigkeiten Forschungsarbeiten Tutorials Datensätze Wiki SOTA LLM-Modelle GPU-Rangliste Veranstaltungen

Deutsch

Video Prediction On Kinetics 600 12 Frames

Metriken

Cond

FVD

Pred

Ergebnisse

Leistungsergebnisse verschiedener Modelle zu diesem Benchmark

Modellname	Cond	FVD	Pred	Paper Title	Repository
Video Transformer	5	170±5	11	Scaling Autoregressive Video Models
OmniTokenizer-AR	-	32.9	-	OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation
LARP	5	5.1	11	LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior
DVD-GAN-FP	5	69.15±0.78	11	Adversarial Video Generation on Complex Datasets
LVT	5	224.73	11	Latent Video Transformer
RIN (1000 steps)	-	10.8	-	Scalable Adaptive Computation for Iterative Generation
TriVD-GAN-FP	5	25.74±0.66	11	Transformation-based Adversarial Video Prediction on Large-Scale Data	-
MAGVIT (-L-FP)	5	9.9±0.3	11	MAGVIT: Masked Generative Video Transformer
MAGVIT-v2	-	4.3±0.1	-	Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation
CCVS	5	55±1	11	CCVS: Context-aware Controllable Video Synthesis
MAGVIT (-B-FP)	5	24.5±0.9	11	MAGVIT: Masked Generative Video Transformer
W.A.L.T.-L	-	3.3	-	Photorealistic Video Generation with Diffusion Models	-
Video VQ-VAE FVD	4	64.30±2.04	12	Predicting Video with VQVAE
RIN (400 steps)	-	11.5	-	Scalable Adaptive Computation for Iterative Generation
RaMViD	5	16.46	11	Diffusion Models for Video Prediction and Infilling

0 of 15 row(s) selected.