HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
SOTA
Visuelles Fragebeantworten (VQA)

Visuelles Fragebeantworten (VQA)

Visual Question Answering (VQA) ist eine Aufgabe im Bereich der Computer Vision, die darauf abzielt, Fragen zu Bildern mit natürlicher Sprache zu beantworten. Das Kernziel dieser Aufgabe besteht darin, Maschinen zu ermöglichen, den Inhalt von Bildern zu verstehen und präzise sowie kohärente sprachliche Antworten zu liefern. VQA hat erheblichen Anwendungswert in der Mensch-Computer-Interaktion, intelligenter Unterstützung und Inhaltsverstehen, indem es die visuellen kognitiven Fähigkeiten von Maschinen erheblich verbessert.

VQA v2 test-dev

VQA v2 test-std

Gemini Ultra (pixel only)

VizWiz 2020 VQA

NS-VQA (1K programs)

COCO Visual Question Answering (VQA) real images 1.0 open ended

TextVQA test-standard

BLIP-2 ViT-G FlanT5 XXL (zero-shot)

COCO Visual Question Answering (VQA) real images 1.0 multiple choice

LXR955, No Ensemble

VCR (QA-R) test

VQA v1 test-dev

VCR (Q-AR) test

VizWiz 2020 Answerability

VQA v1 test-std

COCO Visual Question Answering (VQA) abstract images 1.0 open ended

COCO Visual Question Answering (VQA) real images 2.0 open ended

COCO Visual Question Answering (VQA) abstract 1.0 multiple choice

FigureQA - test 1

BERT LARGE Baseline

VizWiz 2018 Answerability

SAN † - hard mask

PrefixLM with CLIP and T5

DVQA test-familiar

PReFIL (Oracle OCR)

Visual Genome (subjects)

Visual Genome (pairs)

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
SOTA
Visuelles Fragebeantworten (VQA)

Visuelles Fragebeantworten (VQA)

Visual Question Answering (VQA) ist eine Aufgabe im Bereich der Computer Vision, die darauf abzielt, Fragen zu Bildern mit natürlicher Sprache zu beantworten. Das Kernziel dieser Aufgabe besteht darin, Maschinen zu ermöglichen, den Inhalt von Bildern zu verstehen und präzise sowie kohärente sprachliche Antworten zu liefern. VQA hat erheblichen Anwendungswert in der Mensch-Computer-Interaktion, intelligenter Unterstützung und Inhaltsverstehen, indem es die visuellen kognitiven Fähigkeiten von Maschinen erheblich verbessert.

VQA v2 test-dev

VQA v2 test-std

Gemini Ultra (pixel only)

VizWiz 2020 VQA

NS-VQA (1K programs)

COCO Visual Question Answering (VQA) real images 1.0 open ended

TextVQA test-standard

BLIP-2 ViT-G FlanT5 XXL (zero-shot)

COCO Visual Question Answering (VQA) real images 1.0 multiple choice

LXR955, No Ensemble

VCR (QA-R) test

VQA v1 test-dev

VCR (Q-AR) test

VizWiz 2020 Answerability

VQA v1 test-std

COCO Visual Question Answering (VQA) abstract images 1.0 open ended

COCO Visual Question Answering (VQA) real images 2.0 open ended

COCO Visual Question Answering (VQA) abstract 1.0 multiple choice

FigureQA - test 1

BERT LARGE Baseline

VizWiz 2018 Answerability

SAN † - hard mask

PrefixLM with CLIP and T5

DVQA test-familiar

PReFIL (Oracle OCR)

Visual Genome (subjects)

Visual Genome (pairs)

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)