ビデオ質問応答
ビデオ質問応答(VQA)は、コンピュータビジョンと自然言語処理技術を統合し、ユーザーがビデオコンテンツに関連して提出した質問に正確に答えることを目指すタスクです。ビデオの分析を通じて視覚情報と言語情報を深く融合させ、理解することにより、精密で効率的な情報検索やインタラクティブな体験を提供します。VQAは、インテリジェントビデオアシスタント、教育プラットフォーム、エンターテイメントシステムなどの分野で重要な応用価値を持っています。
NExT-QA
LLaMA-VQA (33B)
ActivityNet-QA
FrozenBiLM
MVBench
ST-LLM
TVBench
Tarsier-34B
STAR Benchmark
VLAP (4 frames)
MSRVTT-QA
FrozenBiLM
AGQA 2.0 balanced
GF (sup) - Faster RCNN
How2QA
Text + Text (no Multimodal Pretext Training)
iVQA
FrozenBiLM
MSRVTT-MC
Singularity-temporal
IntentQA
VideoChat2_mistral
Perception Test
InternVideo2 (8B)
SUTD-TrafficQA
TVQA
LLaMA-VQA
WildQA
LSMDC-MC
VIOLETv2
NExT-QA (Efficient)
ViLA (3B, 4 frames)
RoadTextVQA
GIT
DramaQA
Howto100M-QA
TimeSformer
LSMDC-FiB
Clover
MSR-VTT
MSR-VTT-MC
ATP (1<-16)
MSVD-QA
TGIF-QA
VideoQA
Just Ask (fine-tune)
VLEP