Réponse aux questions vidéo
La tâche de réponse aux questions vidéo (VQA) intègre les technologies de vision par ordinateur et de traitement du langage naturel, visant à répondre avec précision aux questions posées par les utilisateurs concernant le contenu vidéo grâce à l'analyse de celui-ci. Son objectif est d'atteindre une fusion profonde et une compréhension des informations visuelles et linguistiques contenues dans les vidéos, afin de fournir une recherche d'informations précise et efficace ainsi que des expériences interactives. La VQA présente une valeur d'application importante dans des domaines tels que les assistants vidéo intelligents, les plateformes éducatives et les systèmes de divertissement.
NExT-QA
LLaMA-VQA (33B)
ActivityNet-QA
FrozenBiLM
MVBench
ST-LLM
TVBench
Tarsier-34B
STAR Benchmark
VLAP (4 frames)
MSRVTT-QA
FrozenBiLM
AGQA 2.0 balanced
GF (sup) - Faster RCNN
How2QA
Text + Text (no Multimodal Pretext Training)
iVQA
FrozenBiLM
MSRVTT-MC
Singularity-temporal
IntentQA
VideoChat2_mistral
Perception Test
InternVideo2 (8B)
SUTD-TrafficQA
TVQA
LLaMA-VQA
WildQA
LSMDC-MC
VIOLETv2
NExT-QA (Efficient)
ViLA (3B, 4 frames)
RoadTextVQA
GIT
DramaQA
Howto100M-QA
TimeSformer
LSMDC-FiB
Clover
MSR-VTT
MSR-VTT-MC
ATP (1<-16)
MSVD-QA
TGIF-QA
VideoQA
Just Ask (fine-tune)
VLEP