منذ 11 أيام

RelViT: نموذج Vision Transformer موجه بالمعاني للاستدلال العلاقاتي البصري

Xiaojian Ma, Weili Nie, Zhiding Yu, Huaizu Jiang, Chaowei Xiao, Yuke Zhu, Song-Chun Zhu, Anima Anandkumar

الملخص

الاستدلال حول العلاقات البصرية يُعدّ محورياً في طريقة تفسير البشر للعالم البصري. تظل هذه المهمة تحدياً كبيراً للخوارزميات الحالية القائمة على التعلم العميق، نظراً لاحتياجها إلى معالجة ثلاث مشكلات تقنية رئيسية بشكل متكامل: 1) تحديد الكيانات الكائنية وخصائصها، 2) استخلاص العلاقات الدلالية بين أزواج من الكيانات، و3) التعميم على توليفات جديدة من الكيانات والعلاقات، أي التعميم النظامي. في هذه الدراسة، نستخدم نماذج المحولات البصرية (ViTs) كنموذج أساسي للاستدلال البصري، ونُحسّن الاستفادة من المفاهيم المُعرّفة على شكل كيانات كائنية والعلاقات بينها لتعزيز قدرة الاستدلال في نماذج ViTs. وبشكل خاص، نقدّم قاموساً مفاهيمياً-مُميّزاً جديداً يسمح باسترجاع مرن لسمات الصورة أثناء التدريب باستخدام مفاتيح مفاهيمية. يُمكّن هذا القاموس من تعريف مهام مساعدة جديدة موجهة بالمفاهيم: 1) مهمة عالمية لتعزيز الاستدلال العلاقاتي، و2) مهمة محلية لتسهيل تعلّم التوافق الدلالي المتمحور حول الكائنات. ولتقييم قدرة نماذج الاستدلال البصري على التعميم النظامي، نقدّم تقسيمات منظمة للBenchmark القياسيين HICO وGQA. ونُظهر أن النموذج الناتج، المُسمى بالمحول البصري الموجه بالمفاهيم (أو RelViT اختصاراً)، يتفوّق بشكل كبير على النماذج السابقة على HICO وGQA بنسبة 16% و13% على التوالي في التقسيم الأصلي، وبنسبة 43% و18% في التقسيم النظامي. كما تُظهر تحليلات التحليل التجريبي (ablation analyses) توافق نموذجنا مع عدة أنواع من نماذج ViT، ومقاومته لحساسية المُعاملات الفائقة (hyper-parameters).