HyperAIHyperAI

Command Palette

Search for a command to run...

إجابة الأسئلة حول التصورات البيانية باستخدام الاندماج الثنائي البصري بكفاءة

Kushal Kafle Robik Shrestha Brian Price Scott Cohen Christopher Kanan

الملخص

الإجابة على أسئلة الرسوم البيانية (CQA) هي مهمة جديدة مقترحة في مجال الإجابة على الأسئلة المرتبطة بالصور البصرية (VQA)، حيث يجب على الخوارزمية أن تجيب على الأسئلة المتعلقة بتصورات البيانات، مثل الرسوم البيانية الشريطية والرسوم البيانية الدائرية والرسوم البيانية الخطية. تتطلب CQA قدرات لا تمتلكها خوارزميات VQA للصور الطبيعية: القياسات الدقيقة، وتعرف الحروف البصرية، وتعامل الكلمات الغير موجودة في المفردات في كل من الأسئلة والإجابات. بدون تعديلات، تؤدي أحدث خوارزميات VQA بشكل سيء في هذه المهمة. هنا، نقترح خوارزمية CQA جديدة تسمى الاندماج المتوازي للتكرار بين الصورة واللغة (PReFIL). تقوم PReFIL أولاً بتعلم التضمينات ثنائية الوسيط من خلال دمج ميزات السؤال والصورة، ثم تجمع هذه التضمينات المُتعلمة بشكل ذكي للرد على السؤال المعطى. رغم بساطتها، فإن PReFIL تتفوق بشكل كبير على أحدث النظم وأسس البشر في كل من مجموعتي بيانات FigureQA و DVQA. بالإضافة إلى ذلك، نوضح أن PReFIL يمكن استخدامها لإعادة بناء الجداول عن طريق طرح سلسلة من الأسئلة حول الرسم البياني.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إجابة الأسئلة حول التصورات البيانية باستخدام الاندماج الثنائي البصري بكفاءة | مستندات | HyperAI