HyperAIHyperAI
منذ 2 أشهر

IconQA: معيار جديد لفهم الرسومات المجردة واستدلال اللغة البصرية

Pan Lu; Liang Qiu; Jiaqi Chen; Tony Xia; Yizhou Zhao; Wei Zhang; Zhou Yu; Xiaodan Liang; Song-Chun Zhu
IconQA: معيار جديد لفهم الرسومات المجردة واستدلال اللغة البصرية
الملخص

المهام الحالية للإجابة على الأسئلة المرئية (VQA) تركز بشكل أساسي على الإجابة على الأسئلة التي تم توثيقها من قبل البشر حول الصور الطبيعية. ومع ذلك، فإن الرسومات المجردة الغنية بالمعنى لا تزال قليلة الدراسة في أبحاث فهم وتحليل الصور المرئية. في هذا العمل، نقدم تحديًا جديدًا يُعرف بـ "إجابة الأسئلة على الرموز" (IconQA)، والهدف منه هو الإجابة على سؤال في سياق صورة رمزية. نقوم بإصدار IconQA، وهو مجموعة بيانات كبيرة تتكون من 107,439 سؤالًا وثلاثة مهام فرعية: اختيار متعدد للصور، اختيار متعدد للنصوص، وملء الفراغات. تم إلهام مجموعة البيانات IconQA من مشكلات الكلمات المرتبطة بالرسومات في العالم الحقيقي، والتي تؤكد أهمية فهم الرسومات المجردة والتفكير المعرفي الشامل. لذلك، يتطلب IconQA ليس فقط مهارات الإدراك مثل التعرف على الأشياء وفهم النصوص، بل أيضًا مهارات تفكير معرفي متنوعة مثل التفكير الهندسي (geometric reasoning)، التفكير الشائع (commonsense reasoning)، والتفكير الحسابي (arithmetic reasoning). لتسهيل تعلم النماذج المحتملة لـ IconQA تمثيلات معنوية للصور الرمزية، نقوم بإصدار مجموعة بيانات الرموز Icon645 التي تحتوي على 645,687 رمز ملون ضمن 377 فئة. نجري دراسات مستخدمين وتجارب عمياء مكثفة وإعادة إنتاج نطاق واسع من الأساليب المتقدمة لـ VQA لتقييم مهمة IconQA. كما طورنا خط أساس قوي لـ IconQA يُسمى Patch-TRM يستخدم محولًا ثنائي الوضع الهرمي مع تضمينات رسومية تم تدريبها مسبقًا على مجموعة بيانات الرموز. يمكن الوصول إلى IconQA وIcon645 عبر الرابط https://iconqa.github.io.