HyperAIHyperAI
منذ 2 أشهر

تصنيف-انحدار لفهم الرسوم البيانية

Levy, Matan ; Ben-Ari, Rami ; Lischinski, Dani
تصنيف-انحدار لفهم الرسوم البيانية
الملخص

الإجابة على أسئلة الرسوم البيانية (CQA) هي مهمة تستخدم لتقييم فهم الرسوم البيانية، وهي تختلف جوهريًا عن فهم الصور الطبيعية. تتطلب CQA تحليل العلاقات بين العناصر النصية والبصرية في الرسم البياني من أجل الإجابة على الأسئلة العامة أو استنتاج القيم العددية. معظم المجموعات والنماذج الحالية لـ CQA تعتمد على افتراضات مبسطة غالبًا ما تمكنها من التفوق على الأداء البشري. في هذا العمل، نتناول هذه النتيجة ونقترح نموذجًا جديدًا يتعلم التصنيف والتقدير بشكل مشترك. يستخدم نظام اللغة-الرؤية لدينا متغيرات الانتباه المشترك (co-attention transformers) لالتقاط التفاعلات المعقدة في العالم الحقيقي بين السؤال والعناصر النصية. نؤكد تصميمنا من خلال التجارب الواسعة التي أجريت على مجموعة البيانات الواقعية PlotQA، حيث حقق نموذجنا تفوقًا كبيرًا على الأساليب السابقة، بينما أظهر أداءً تنافسيًا على FigureQA. يعتبر نموذجنا خاصًا بالأسئلة الواقعية ذات الإجابات خارج القاموس والتي تتطلب تقديرًا (regression).