HyperAI

Video Question Answering

Liste des benchmarks

Tous les benchmarks liés à cette tâche

activitynet-qa
Meilleur modèle: VideoChat2

Métriques

Voir les détails
agqa-2-0-balanced
Meilleur modèle: GF (sup) - Faster RCNN

Métriques

Voir les détails
how2qa
Meilleur modèle: Text + Text (no Multimodal Pretext Training)

Métriques

Voir les détails
howto100m-qa
Meilleur modèle: TimeSformer

Métriques

Voir les détails
intentqa
Meilleur modèle: VideoChat2_mistral

Métriques

Voir les détails
ivqa
Meilleur modèle: FrozenBiLM

Métriques

Voir les détails
lsmdc-fib
Meilleur modèle: Clover

Métriques

Voir les détails
lsmdc-mc
Meilleur modèle: VIOLETv2

Métriques

Voir les détails
msr-vtt-mc
Meilleur modèle: ATP (1<-16)

Métriques

Voir les détails
msrvtt-mc
Meilleur modèle: Singularity-temporal

Métriques

Voir les détails
msrvtt-qa
Meilleur modèle: FrozenBiLM

Métriques

Voir les détails
mvbench
Meilleur modèle: Tarsier (34B)

Métriques

Voir les détails
next-qa
Meilleur modèle: LinVT-Qwen2-VL (7B)

Métriques

Voir les détails
next-qa-efficient
Meilleur modèle: ViLA (3B, 4 frames)

Métriques

Voir les détails
perception-test
Meilleur modèle: Oyrx (34B)

Métriques

Voir les détails
roadtextvqa
Meilleur modèle: GIT

Métriques

Voir les détails
situated-reasoning-star
Meilleur modèle: VLAP (4 frames)

Métriques

Voir les détails
tvbench
Meilleur modèle: Tarsier-34B

Métriques

Voir les détails
tvqa
Meilleur modèle: LLaMA-VQA

Métriques

Voir les détails
videoqa
Meilleur modèle: Just Ask (fine-tune)

Métriques

Voir les détails
dramaqa

Métriques

Voir les détails
msr-vtt

Métriques

Voir les détails
msvd-qa

Métriques

Voir les détails
trafficqa

Métriques

Voir les détails
tgif-qa

Métriques

Voir les détails
vlep

Métriques

Voir les détails
wildqa

Métriques

Voir les détails