Command Palette
Search for a command to run...
ビデオ質問応答
ビデオ質問応答(VQA)は、コンピュータビジョンと自然言語処理技術を統合し、ユーザーがビデオコンテンツに関連して提出した質問に正確に答えることを目指すタスクです。ビデオの分析を通じて視覚情報と言語情報を深く融合させ、理解することにより、精密で効率的な情報検索やインタラクティブな体験を提供します。VQAは、インテリジェントビデオアシスタント、教育プラットフォーム、エンターテイメントシステムなどの分野で重要な応用価値を持っています。
NExT-QA
LLaMA-VQA (33B)
ActivityNet-QA
FrozenBiLM
TVBench
Tarsier-34B
MVBench
ST-LLM
STAR Benchmark
VLAP (4 frames)
MSRVTT-QA
FrozenBiLM
How2QA
Text + Text (no Multimodal Pretext Training)
AGQA 2.0 balanced
GF (sup) - Faster RCNN
iVQA
FrozenBiLM
MSRVTT-MC
Singularity-temporal
TVQA
LLaMA-VQA
IntentQA
VideoChat2_mistral
Perception Test
InternVideo2 (8B)
SUTD-TrafficQA
WildQA
RoadTextVQA
GIT
NExT-QA (Efficient)
ViLA (3B, 4 frames)
LSMDC-MC
VIOLETv2
VideoQA
Just Ask (fine-tune)
MSVD-QA
MSR-VTT-MC
ATP (1<-16)
VLEP
Howto100M-QA
TimeSformer
DramaQA
TGIF-QA
MSR-VTT
LSMDC-FiB
Clover