HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
SOTA
ビジュアルクエスチョンアンサリング

ビジュアルクエスチョンアンサリング

Visual Question Answering (VQA) は、コンピュータビジョンの分野におけるタスクで、画像に関する質問に自然言語で答えることを目指しています。このタスクの主な目的は、機械が画像の内容を理解し、正確で一貫性のある言語形式で回答を提供することです。VQA は、人間とコンピュータの対話、知的支援、コンテンツ理解において重要な応用価値を持ち、機械の視覚的な認知能力を大幅に向上させます。

VQA v2 test-dev

VQA v2 test-std

Gemini Ultra (pixel only)

VizWiz 2020 VQA

NS-VQA (1K programs)

COCO Visual Question Answering (VQA) real images 1.0 open ended

TextVQA test-standard

BLIP-2 ViT-G FlanT5 XXL (zero-shot)

COCO Visual Question Answering (VQA) real images 1.0 multiple choice

LXR955, No Ensemble

VCR (QA-R) test

VQA v1 test-dev

VCR (Q-AR) test

VizWiz 2020 Answerability

VQA v1 test-std

COCO Visual Question Answering (VQA) abstract images 1.0 open ended

COCO Visual Question Answering (VQA) real images 2.0 open ended

COCO Visual Question Answering (VQA) abstract 1.0 multiple choice

FigureQA - test 1

BERT LARGE Baseline

VizWiz 2018 Answerability

SAN † - hard mask

PrefixLM with CLIP and T5

DVQA test-familiar

PReFIL (Oracle OCR)

Visual Genome (subjects)

Visual Genome (pairs)

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
SOTA
ビジュアルクエスチョンアンサリング

ビジュアルクエスチョンアンサリング

Visual Question Answering (VQA) は、コンピュータビジョンの分野におけるタスクで、画像に関する質問に自然言語で答えることを目指しています。このタスクの主な目的は、機械が画像の内容を理解し、正確で一貫性のある言語形式で回答を提供することです。VQA は、人間とコンピュータの対話、知的支援、コンテンツ理解において重要な応用価値を持ち、機械の視覚的な認知能力を大幅に向上させます。

VQA v2 test-dev

VQA v2 test-std

Gemini Ultra (pixel only)

VizWiz 2020 VQA

NS-VQA (1K programs)

COCO Visual Question Answering (VQA) real images 1.0 open ended

TextVQA test-standard

BLIP-2 ViT-G FlanT5 XXL (zero-shot)

COCO Visual Question Answering (VQA) real images 1.0 multiple choice

LXR955, No Ensemble

VCR (QA-R) test

VQA v1 test-dev

VCR (Q-AR) test

VizWiz 2020 Answerability

VQA v1 test-std

COCO Visual Question Answering (VQA) abstract images 1.0 open ended

COCO Visual Question Answering (VQA) real images 2.0 open ended

COCO Visual Question Answering (VQA) abstract 1.0 multiple choice

FigureQA - test 1

BERT LARGE Baseline

VizWiz 2018 Answerability

SAN † - hard mask

PrefixLM with CLIP and T5

DVQA test-familiar

PReFIL (Oracle OCR)

Visual Genome (subjects)

Visual Genome (pairs)

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)