HyperAIHyperAI
منذ 2 أشهر

إجابة الأسئلة حول التصورات البيانية باستخدام الاندماج الثنائي البصري بكفاءة

Kafle, Kushal ; Shrestha, Robik ; Price, Brian ; Cohen, Scott ; Kanan, Christopher
إجابة الأسئلة حول التصورات البيانية باستخدام الاندماج الثنائي البصري بكفاءة
الملخص

الإجابة على أسئلة الرسوم البيانية (CQA) هي مهمة جديدة مقترحة في مجال الإجابة على الأسئلة المرتبطة بالصور البصرية (VQA)، حيث يجب على الخوارزمية أن تجيب على الأسئلة المتعلقة بتصورات البيانات، مثل الرسوم البيانية الشريطية والرسوم البيانية الدائرية والرسوم البيانية الخطية. تتطلب CQA قدرات لا تمتلكها خوارزميات VQA للصور الطبيعية: القياسات الدقيقة، وتعرف الحروف البصرية، وتعامل الكلمات الغير موجودة في المفردات في كل من الأسئلة والإجابات. بدون تعديلات، تؤدي أحدث خوارزميات VQA بشكل سيء في هذه المهمة. هنا، نقترح خوارزمية CQA جديدة تسمى الاندماج المتوازي للتكرار بين الصورة واللغة (PReFIL). تقوم PReFIL أولاً بتعلم التضمينات ثنائية الوسيط من خلال دمج ميزات السؤال والصورة، ثم تجمع هذه التضمينات المُتعلمة بشكل ذكي للرد على السؤال المعطى. رغم بساطتها، فإن PReFIL تتفوق بشكل كبير على أحدث النظم وأسس البشر في كل من مجموعتي بيانات FigureQA و DVQA. بالإضافة إلى ذلك، نوضح أن PReFIL يمكن استخدامها لإعادة بناء الجداول عن طريق طرح سلسلة من الأسئلة حول الرسم البياني.

إجابة الأسئلة حول التصورات البيانية باستخدام الاندماج الثنائي البصري بكفاءة | أحدث الأوراق البحثية | HyperAI