HyperAI

الرئيسية

الصفحة الرئيسية

GPU

وحدة التحكم
استوديو
التوثيق
التسعير

Pulse

الأخبار

الموارد

الأوراق البحثية
دفاتر تفاعلية
مجموعات بيانات
ويكي

الاختبارات القياسية

SOTA
نماذج اللغة الكبيرة (LLM)
لوحة صدارة وحدات معالجة الرسوميات GPU

المجتمع

الفعاليات

أدوات

حول شروط الخدمة سياسة الخصوصية
العربية

Command Palette

Search for a command to run...

HyperAI
SOTA
الأسئلة المرئية والإجابة عليها (VQA)

الأسئلة المرئية والإجابة عليها (VQA)

الإجابة على الأسئلة البصرية (VQA) هي مهمة في مجال الرؤية الحاسوبية تهدف إلى الإجابة على الأسئلة المتعلقة بالصور باستخدام اللغة الطبيعية. الهدف الأساسي لهذه المهمة هو تمكين الآلات من فهم محتوى الصور وتقديم إجابات دقيقة ومتماسكة لغويًا. تعتبر VQA ذات قيمة تطبيقية كبيرة في التفاعل بين الإنسان والحاسوب، والمساعدة الذكية، وفهم المحتوى، مما يعزز بشكل كبير قدرات الآلات على الإدراك البصري.

VQA v2 test-dev

VQA v2 test-std

Gemini Ultra (pixel only)

VizWiz 2020 VQA

NS-VQA (1K programs)

COCO Visual Question Answering (VQA) real images 1.0 open ended

TextVQA test-standard

BLIP-2 ViT-G FlanT5 XXL (zero-shot)

COCO Visual Question Answering (VQA) real images 1.0 multiple choice

LXR955, No Ensemble

VCR (QA-R) test

VQA v1 test-dev

VCR (Q-AR) test

VizWiz 2020 Answerability

VQA v1 test-std

COCO Visual Question Answering (VQA) abstract images 1.0 open ended

COCO Visual Question Answering (VQA) real images 2.0 open ended

COCO Visual Question Answering (VQA) abstract 1.0 multiple choice

FigureQA - test 1

BERT LARGE Baseline

VizWiz 2018 Answerability

SAN † - hard mask

PrefixLM with CLIP and T5

DVQA test-familiar

PReFIL (Oracle OCR)

Visual Genome (subjects)

Visual Genome (pairs)

ابنِ مستقبل الذكاء الاصطناعي

حول

من نحن الدعم دعم مجموعة البيانات

المنتجات

الأخبار الأوراق البحثية دفاتر تفاعلية مجموعات بيانات ويكي

الروابط

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

الرئيسية

الصفحة الرئيسية

GPU

وحدة التحكم
استوديو
التوثيق
التسعير

Pulse

الأخبار

الموارد

الأوراق البحثية
دفاتر تفاعلية
مجموعات بيانات
ويكي

الاختبارات القياسية

SOTA
نماذج اللغة الكبيرة (LLM)
لوحة صدارة وحدات معالجة الرسوميات GPU

المجتمع

الفعاليات

أدوات

حول شروط الخدمة سياسة الخصوصية
العربية

Command Palette

Search for a command to run...

HyperAI
SOTA
الأسئلة المرئية والإجابة عليها (VQA)

الأسئلة المرئية والإجابة عليها (VQA)

الإجابة على الأسئلة البصرية (VQA) هي مهمة في مجال الرؤية الحاسوبية تهدف إلى الإجابة على الأسئلة المتعلقة بالصور باستخدام اللغة الطبيعية. الهدف الأساسي لهذه المهمة هو تمكين الآلات من فهم محتوى الصور وتقديم إجابات دقيقة ومتماسكة لغويًا. تعتبر VQA ذات قيمة تطبيقية كبيرة في التفاعل بين الإنسان والحاسوب، والمساعدة الذكية، وفهم المحتوى، مما يعزز بشكل كبير قدرات الآلات على الإدراك البصري.

VQA v2 test-dev

VQA v2 test-std

Gemini Ultra (pixel only)

VizWiz 2020 VQA

NS-VQA (1K programs)

COCO Visual Question Answering (VQA) real images 1.0 open ended

TextVQA test-standard

BLIP-2 ViT-G FlanT5 XXL (zero-shot)

COCO Visual Question Answering (VQA) real images 1.0 multiple choice

LXR955, No Ensemble

VCR (QA-R) test

VQA v1 test-dev

VCR (Q-AR) test

VizWiz 2020 Answerability

VQA v1 test-std

COCO Visual Question Answering (VQA) abstract images 1.0 open ended

COCO Visual Question Answering (VQA) real images 2.0 open ended

COCO Visual Question Answering (VQA) abstract 1.0 multiple choice

FigureQA - test 1

BERT LARGE Baseline

VizWiz 2018 Answerability

SAN † - hard mask

PrefixLM with CLIP and T5

DVQA test-familiar

PReFIL (Oracle OCR)

Visual Genome (subjects)

Visual Genome (pairs)

ابنِ مستقبل الذكاء الاصطناعي

حول

من نحن الدعم دعم مجموعة البيانات

المنتجات

الأخبار الأوراق البحثية دفاتر تفاعلية مجموعات بيانات ويكي

الروابط

© HyperAI

GitHub Discord X (formerly Twitter)