HyperAIHyperAI

Command Palette

Search for a command to run...

DocVQA: مجموعة بيانات لاستجابة الأسئلة حول صور المستندات

Minesh Mathew Dimosthenis Karatzas C.V. Jawahar

الملخص

نقدم مجموعة بيانات جديدة لاستجابات الأسئلة البصرية (VQA) على صور المستندات تُسمى DocVQA. تتكوّن المجموعة من 50,000 سؤالًا محددة على أكثر من 12,000 صورة مستند. ونقدّم تحليلًا مفصلًا للمجموعة مقارنةً بمجاميع بيانات مماثلة لـ VQA وفهم القراءة. ونُعلِن عن نتائج قاعدة أولية باستخدام نماذج موجودة لـ VQA وفهم القراءة. وعلى الرغم من أن النماذج الحالية تؤدي أداءً معقولًا في أنواع معينة من الأسئلة، إلا أن هناك فجوة كبيرة في الأداء مقارنة بالأداء البشري (دقة 94.36٪). وتحتاج النماذج إلى تحسين أداءها بشكل خاص في الأسئلة التي يُعد فهم هيكل المستند فيها أمرًا حاسمًا. تتوفر المجموعة، والكود، وجدول التصنيف على الموقع: docvqa.org


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DocVQA: مجموعة بيانات لاستجابة الأسئلة حول صور المستندات | مستندات | HyperAI