HyperAIHyperAI

Command Palette

Search for a command to run...

RelViT: نموذج Vision Transformer موجه بالمعاني للاستدلال العلاقاتي البصري

Xiaojian Ma Weili Nie Zhiding Yu Huaizu Jiang Chaowei Xiao Yuke Zhu Song-Chun Zhu Anima Anandkumar

الملخص

الاستدلال حول العلاقات البصرية يُعدّ محورياً في طريقة تفسير البشر للعالم البصري. تظل هذه المهمة تحدياً كبيراً للخوارزميات الحالية القائمة على التعلم العميق، نظراً لاحتياجها إلى معالجة ثلاث مشكلات تقنية رئيسية بشكل متكامل: 1) تحديد الكيانات الكائنية وخصائصها، 2) استخلاص العلاقات الدلالية بين أزواج من الكيانات، و3) التعميم على توليفات جديدة من الكيانات والعلاقات، أي التعميم النظامي. في هذه الدراسة، نستخدم نماذج المحولات البصرية (ViTs) كنموذج أساسي للاستدلال البصري، ونُحسّن الاستفادة من المفاهيم المُعرّفة على شكل كيانات كائنية والعلاقات بينها لتعزيز قدرة الاستدلال في نماذج ViTs. وبشكل خاص، نقدّم قاموساً مفاهيمياً-مُميّزاً جديداً يسمح باسترجاع مرن لسمات الصورة أثناء التدريب باستخدام مفاتيح مفاهيمية. يُمكّن هذا القاموس من تعريف مهام مساعدة جديدة موجهة بالمفاهيم: 1) مهمة عالمية لتعزيز الاستدلال العلاقاتي، و2) مهمة محلية لتسهيل تعلّم التوافق الدلالي المتمحور حول الكائنات. ولتقييم قدرة نماذج الاستدلال البصري على التعميم النظامي، نقدّم تقسيمات منظمة للBenchmark القياسيين HICO وGQA. ونُظهر أن النموذج الناتج، المُسمى بالمحول البصري الموجه بالمفاهيم (أو RelViT اختصاراً)، يتفوّق بشكل كبير على النماذج السابقة على HICO وGQA بنسبة 16% و13% على التوالي في التقسيم الأصلي، وبنسبة 43% و18% في التقسيم النظامي. كما تُظهر تحليلات التحليل التجريبي (ablation analyses) توافق نموذجنا مع عدة أنواع من نماذج ViT، ومقاومته لحساسية المُعاملات الفائقة (hyper-parameters).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
RelViT: نموذج Vision Transformer موجه بالمعاني للاستدلال العلاقاتي البصري | مستندات | HyperAI