HyperAIHyperAI

Command Palette

Search for a command to run...

VQA: الإجابة على الأسئلة البصرية

Aishwarya Agrawal; Jiasen Lu; Stanislaw Antol; Margaret Mitchell; C. Lawrence Zitnick; Dhruv Batra; Devi Parikh

الملخص

نقترح مهمة الإجابة على الأسئلة البصرية (VQA) بحرية مطلقة وبشكل مفتوح. بالنظر إلى صورة وسؤال بلغة طبيعية عن هذه الصورة، فإن المهمة هي تقديم إجابة دقيقة بلغة طبيعية. تعكس هذه المهمة السيناريوهات الحقيقية مثل مساعدة ذوي الاحتياجات الخاصة البصريين، حيث تكون الأسئلة والإجابات مفتوحة. تركز الأسئلة البصرية بشكل انتقائي على مناطق مختلفة من الصورة، بما في ذلك تفاصيل الخلفية والسياق الكامن. نتيجة لذلك، يحتاج النظام الذي ينجح في VQA إلى فهم أكثر تفصيلاً للصورة وتفكير معقد أكثر من نظام ينتج عناوين صورية عامة. بالإضافة إلى ذلك، يمكن تقييم VQA تلقائياً، نظراً لأن العديد من الإجابات المفتوحة تحتوي فقط على كلمات قليلة أو مجموعة مغلقة من الإجابات يمكن تقديمها بصيغة الاختيار من متعدد. نوفر مجموعة بيانات تحتوي على حوالي 250,000 صورة وحوالي 760,000 سؤال وحوالي 10,000,000 إجابة (www.visualqa.org)، ونناقش المعلومات التي توفرها. يتم توفير وإجراء مقارنة بين العديد من الأساليب والأسس لـ VQA مع أداء الإنسان. يمكن الوصول إلى ديمو VQA الخاص بنا عبر CloudCV (http://cloudcv.org/vqa).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp