HyperAIHyperAI超神経
ホームニュース論文チュートリアルデータセット百科事典SOTALLMモデルGPU ランキング学会
検索
サイトについて
日本語
HyperAIHyperAI超神経
  1. ホーム
  2. SOTA
  3. ゼロショットビデオ質問応答
  4. Zero Shot Video Question Answer On Egoschema

Zero Shot Video Question Answer On Egoschema

評価指標

Accuracy

評価結果

このベンチマークにおける各モデルのパフォーマンス結果

モデル名
Accuracy
Paper TitleRepository
VideoChat2_HD_mistral65.6MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
MVU (13B)60.3Understanding Long Videos with Multimodal Language Models
Random20.0--
LangRepo (12B)66.2Language Repository for Long Video Understanding
LLoVi (7B)50.8A Simple LLM Framework for Long-Range Video Question-Answering
SlowFast-LLaVA-34B47.2SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
LLoVi (GPT-3.5)57.6A Simple LLM Framework for Long-Range Video Question-Answering
Tarsier (34B)68.6Tarsier: Recipes for Training and Evaluating Large Video Description Models
SeViLA (4B)25.7Self-Chained Image-Language Model for Video Localization and Question Answering
LVNet66.0Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA
TS-LLaVA-34B57.8TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models
VideoTree (GPT4)66.2VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
VideoChat2_mistral63.6MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
0 of 13 row(s) selected.
HyperAI

学習、理解、実践、コミュニティと共に人工知能の未来を構築する

日本語

サイトについて

私たちについてデータセットヘルプ

プロダクト

ニュースチュートリアルデータセット百科事典

リンク

TVM 中国語Apache TVMOpenBayes

© HyperAI超神経

TwitterBilibili