منذ 6 أشهر

الملخص

تُعيد هذه الورقة النظر في تمثيل الصور في مسائل الإجابة على الأسئلة البصرية القائمة على المعرفة (VQA)، وتكشف أن استخدام المعلومات الإقليمية بشكل أفضل يمكن أن يُحسّن الأداء بشكل ملحوظ. وعلى الرغم من أن تمثيل الصور قد تم دراسته بشكل واسع في مسائل VQA التقليدية، إلا أنه ما زال غير مُستكشف بشكل كافٍ في مسائل VQA القائمة على المعرفة، رغم أن هاتين المهمتين تشتركان في الروح المشتركة، وهي الاعتماد على المدخلات البصرية للإجابة على الأسئلة. وبشكل خاص، نلاحظ أن معظم الطرق الحديثة المتطورة في مسائل VQA القائمة على المعرفة: 1) تستخرج ميزات بصرية إما من الصورة الكاملة أو بطريقة نافذة منزلقة لاسترجاع المعرفة، مما يؤدي إلى إهمال العلاقات المهمة داخل المناطق أو بين المناطق المختلفة للأجسام؛ 2) لا تُستغل الميزات البصرية بشكل فعّال في نموذج الإجابة النهائي، وهو ما يُعد أمرًا غير منطقي إلى حد ما. استنادًا إلى هذه الملاحظات، نقترح طريقة جديدة لمسألة VQA القائمة على المعرفة تُسمى REVIVE، والتي تحاول الاستفادة من المعلومات الصريحة المتعلقة بمناطق الأجسام ليس فقط في مرحلة استرجاع المعرفة، بل أيضًا في نموذج الإجابة. والدافع الرئيسي وراء هذه الطريقة هو أن مناطق الأجسام والعلاقات المتأصلة فيها تُعد عناصر حاسمة في مسائل VQA القائمة على المعرفة. أجرينا تجارب واسعة على مجموعة بيانات OK-VQA القياسية، وحققنا أداءً جديدًا يُعدّ الأفضل في مجاله، بدرجة دقة تبلغ 58.0٪، متفوّقين على أفضل طريقة سابقة بمقدار كبير (+3.6٪). كما أجرينا تحليلًا مفصلًا وبيّنا ضرورة استخدام المعلومات الإقليمية في مكونات الإطار المختلفة لمسائل VQA القائمة على المعرفة. وتم إتاحة الشفرة المصدرية بشكل علني على الرابط: https://github.com/yzleroy/REVIVE.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yuanze Lin Yujia Xie Dongdong Chen Yichong Xu Chenguang Zhu Lu Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yuanze Lin Yujia Xie Dongdong Chen Yichong Xu Chenguang Zhu Lu Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yuanze Lin Yujia Xie Dongdong Chen Yichong Xu Chenguang Zhu Lu Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

REVIVE: تمثل التمثيل البصري الإقليمي أهمية في الإجابة على الأسئلة البصرية القائمة على المعرفة

Yuanze Lin Yujia Xie Dongdong Chen Yichong Xu Chenguang Zhu Lu Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

REVIVE: تمثل التمثيل البصري الإقليمي أهمية في الإجابة على الأسئلة البصرية القائمة على المعرفة

Yuanze Lin Yujia Xie Dongdong Chen Yichong Xu Chenguang Zhu Lu Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

REVIVE: تمثل التمثيل البصري الإقليمي أهمية في الإجابة على الأسئلة البصرية القائمة على المعرفة

Yuanze Lin Yujia Xie Dongdong Chen Yichong Xu Chenguang Zhu Lu Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters