Command Palette
Search for a command to run...
Réponse aux questions vidéo
La tâche de réponse aux questions vidéo (VQA) intègre les technologies de vision par ordinateur et de traitement du langage naturel, visant à répondre avec précision aux questions posées par les utilisateurs concernant le contenu vidéo grâce à l'analyse de celui-ci. Son objectif est d'atteindre une fusion profonde et une compréhension des informations visuelles et linguistiques contenues dans les vidéos, afin de fournir une recherche d'informations précise et efficace ainsi que des expériences interactives. La VQA présente une valeur d'application importante dans des domaines tels que les assistants vidéo intelligents, les plateformes éducatives et les systèmes de divertissement.
NExT-QA
LLaMA-VQA (33B)
ActivityNet-QA
FrozenBiLM
TVBench
Tarsier-34B
MVBench
ST-LLM
STAR Benchmark
VLAP (4 frames)
MSRVTT-QA
FrozenBiLM
How2QA
Text + Text (no Multimodal Pretext Training)
AGQA 2.0 balanced
GF (sup) - Faster RCNN
iVQA
FrozenBiLM
MSRVTT-MC
Singularity-temporal
TVQA
LLaMA-VQA
IntentQA
VideoChat2_mistral
Perception Test
InternVideo2 (8B)
SUTD-TrafficQA
WildQA
RoadTextVQA
GIT
NExT-QA (Efficient)
ViLA (3B, 4 frames)
LSMDC-MC
VIOLETv2
VideoQA
Just Ask (fine-tune)
MSVD-QA
MSR-VTT-MC
ATP (1<-16)
VLEP
Howto100M-QA
TimeSformer
DramaQA
TGIF-QA
MSR-VTT
LSMDC-FiB
Clover