HyperAIHyperAI

Command Palette

Search for a command to run...

الشفافية بالتصميم: إغلاق الفجوة بين الأداء والقابلية للتفسير في الاستدلال البصري

David Mascharka*1 Philip Tran2 Ryan Soklaski1 Arjun Majumdar*1

الملخص

الإجابة على الأسئلة البصرية تتطلب الاستدلال من الدرجة العليا حول الصورة، وهي قدرة أساسية تحتاجها أنظمة الآلات لتنفيذ التوجيهات المعقدة. حديثًا، أثبتت الشبكات الموديولية أنها إطار فعال لأداء مهام الاستدلال البصري. ومع ذلك، كانت أداء هذه الشبكات على مقاييس الاستدلال البصري المعقدة غير كافٍ. النهج الحالية الرائدة لا تقدم آلية فعالة لفهم عملية الاستدلال. في هذا البحث، نغلق الفجوة في الأداء بين النماذج القابلة للتفسير والطرق الرائدة في مجال الاستدلال البصري. نقترح مجموعة من العناصر الأولية للاستدلال البصري، والتي عند تركيبها تظهر كنموذج قادر على أداء مهام استدلال معقدة بطريقة قابلة للتفسير بشكل صريح. دقة وقابلية التفسير للعناصر الأولية تمكن من قدرة غير مسبوقة على تشخيص نقاط القوة والضعف للنموذج الناتج. بشكل حاسم، نظهر أن هذه العناصر الأولية ذات أداء عالي، حيث حققت دقة رائدة تبلغ 99.1٪ على مجموعة بيانات CLEVR (CLEVR dataset). كما نظهر أن نموذجنا قادر على تعلم تمثيلات معممة بشكل فعال عند توفير كمية صغيرة من البيانات تحتوي على خصائص أشياء جديدة. باستخدام مهمة التعميم CoGenT (CoGenT generalization task)، نظهر تحسنًا يزيد عن 20 نقطة مئوية على الحالة الحالية للتقنية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp