HyperAI초신경

Referring Video Object Segmentation On Mevis

평가 지표

F

J

Ju0026F

평가 결과

이 벤치마크에서 각 모델의 성능 결과

				Paper Title
MPG-SAM 2	56.7	50.7	53.7	MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation
VRS-HQ (Chat-UniVi-13B)	53.7	48	50.9	The Devil is in Temporal Token: High Quality Video Reasoning Segmentation
ReferDINO (Swin-B)	53.9	44.7	49.3	ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations
SAMWISE	51.2	45.4	48.3	SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation
FindTrack	50.7	45.6	48.2	Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation
DsHmp + MTCM	51.1	44.1	47.6	Multi-Context Temporal Consistent Modeling for Referring Video Object Segmentation
DsHmp	49.8	43	46.4	Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation
HTR	45.5	39.9	42.7	Temporally Consistent Referring Video Object Segmentation with Hybrid Memory
LMPM	40.2	34.2	37.2	MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions
VLT+TC	37.3	33.6	35.5	VLT: Vision-Language Transformer and Query Generation for Referring Segmentation
InternVideo2.5	-	-	32	InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling
ReferFormer	32.2	29.8	31.0	Language as Queries for Referring Video Object Segmentation
MTTR	31.2	28.8	30.0	End-to-End Referring Video Object Segmentation with Multimodal Transformers
LBDT	30.8	27.8	29.3	Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation
URVOS	29.9	25.7	27.8	URVOS: Unified Referring Video Object Segmentation Network with a Large-Scale Benchmark

0 of 15 row(s) selected.