HyperAI초신경

홈 뉴스 연구 논문 튜토리얼 데이터셋 백과사전 SOTA LLM 모델 GPU 랭킹 컨퍼런스

한국어

HyperAI초신경

Dense Video Captioning On Activitynet

평가 지표

BLEU-3

BLEU-4

METEOR

평가 결과

이 벤치마크에서 각 모델의 성능 결과

모델 이름	BLEU-3	BLEU-4	METEOR	Paper Title	Repository
iPerceive (Chadha et al., 2020)	2.93	1.29	7.87	iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering	-
ADV-INF + Global	-	9.45	16.36	Global Object Proposals for Improving Multi-Sentence Video Descriptions	-
MDVC	2.6	1.07	7.31	Multi-modal Dense Video Captioning
PDVC (TSP features, no SCST)	-	2.17	9.03	End-to-End Dense Video Captioning with Parallel Decoding
Bi-directional+intra captioning	-	-	11.28	Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning	-
Vid2Seq	-	-	17	Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning
TSRM-CMG-HRNN+SCST	-	-	9.71	Dense-Captioning Events in Videos: SYSU Submission to ActivityNet Challenge 2020
TSP	4.16	2.02	8.75	TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks
GVL	-	-	10.03	Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos
BMT	3.84	1.88	8.44	A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer
CM²	-	-	8.55	Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval
VTimeLLM	-	-	-	VTimeLLM: Empower LLM to Grasp Video Moments

0 of 12 row(s) selected.