Video-Fragebeantwortung
Video Fragebeantwortung (VQA) ist eine Aufgabe, die Technologien der Computer Vision und der natürlichen Sprachverarbeitung kombiniert. Ihr Ziel ist es, durch die Analyse von Videos genaue Antworten auf von Nutzern gestellte Fragen zu videobezogenen Inhalten zu liefern. Dabei soll eine tiefe Fusion und Verständnis von visuellen und linguistischen Informationen in Videos erreicht werden, um präzise und effiziente Informationsretrieval- und interaktive Erfahrungen zu bieten. VQA hat erhebliche Anwendungswerte in Bereichen wie intelligente Videoassistenten, Bildungsplattformen und Unterhaltungssysteme.
NExT-QA
LLaMA-VQA (33B)
ActivityNet-QA
FrozenBiLM
TVBench
Tarsier-34B
MVBench
ST-LLM
STAR Benchmark
VLAP (4 frames)
MSRVTT-QA
FrozenBiLM
How2QA
Text + Text (no Multimodal Pretext Training)
AGQA 2.0 balanced
GF (sup) - Faster RCNN
iVQA
FrozenBiLM
MSRVTT-MC
Singularity-temporal
TVQA
LLaMA-VQA
IntentQA
VideoChat2_mistral
Perception Test
InternVideo2 (8B)
SUTD-TrafficQA
WildQA
RoadTextVQA
GIT
NExT-QA (Efficient)
ViLA (3B, 4 frames)
LSMDC-MC
VIOLETv2
VideoQA
Just Ask (fine-tune)
MSVD-QA
MSR-VTT-MC
ATP (1<-16)
VLEP
Howto100M-QA
TimeSformer
DramaQA
TGIF-QA
MSR-VTT
LSMDC-FiB
Clover