HyperAIHyperAI

Command Palette

Search for a command to run...

FVQA: الإجابة على الأسئلة البصرية المستندة إلى الحقائق

Peng Wang* Qi Wu* Chunhua Shen Anthony Dick Anton van den Hengel

الملخص

جذب الإجابة على الأسئلة البصرية (VQA) اهتمامًا كبيرًا في مجتمعَي الرؤية الحاسوبية ومعالجة اللغة الطبيعية، وذلك ليس فقط لأنه يوفر رؤية للعلاقات بين مصدرَي معلومات مهمين. وقد ركزت المجموعات الحالية من البيانات والنموذجُون التي بُنيت عليها على أسئلة يمكن الإجابة عليها من خلال تحليل السؤال والصورة مباشرةً. مجموعة هذه الأسئلة التي لا تتطلب معلومات خارجية للإجابة عنها مثيرة للاهتمام ولكنها محدودة جدًا. فهي تستبعد الأسئلة التي تتطلب الفهم الشائع أو المعرفة الأساسية للإجابة عليها، مثل الأسئلة حول قدرات القطط على تسلق الأشجار.في هذا السياق، نقدم FVQA، وهي مجموعة بيانات لإجابات الأسئلة البصرية تتطلب دعمًا وأسبابًا أعمق بكثير. تحتوي FVQA فقط على أسئلة تحتاج إلى معلومات خارجية للإجابة عنها.لذا، نوسع مجموعة البيانات التقليدية للأسئلة البصرية، والتي تحتوي على ثلاثيات الصورة-السؤال-الإجابة، بإضافة رباعيات الصورة-السؤال-الإجابة-المعلومة الداعمة. يتم تمثيل المعلومة الداعمة كثلاثي هيكلي، مثل <قطة،قادرة_على،تسلق_الأشجار> (Cat, CapableOf, ClimbingTrees).نقيم عدة نماذج أساسية على مجموعة بيانات FVQA ونوصف نموذجًا جديدًا قادرًا على الاستدلال عن الصور بناءً على الحقائق الداعمة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp