HyperAIHyperAI

Command Palette

Search for a command to run...

الاستدلال البصري القابل للتفسير والمحدد على الرسوم البيانية للمناظر

Jiaxin Shi Hanwang Zhang Juanzi Li

الملخص

نهدف إلى تفكيك البنى العصبية السائدة المستخدمة في مهام الاستدلال البصري المعقدة إلى الوحدات العصبية القابلة للشرح والمحددة (XNMs) المقترحة، والتي تتجاوز الشبكات العصبية الحالية نحو استخدام الرسوم البيانية للمشهد --- الأشياء كعقد والعلاقات الثنائية كحواف --- للاستدلال القابل للشرح والمحدد باستخدام المعرفة المنظمة. تسمح لنا الوحدات العصبية القابلة للشرح والمحددة (XNMs) بالتركيز بشكل أكبر على تعليم الآلات كيفية "التفكير"، بغض النظر عن ما يظهرنه "بالعين". كما سنوضح في الورقة، من خلال استخدام الرسوم البيانية للمشهد كتحيز استقرائي، 1) يمكن تصميم الوحدات العصبية القابلة للشرح والمحددة (XNMs) بطريقة موجزة وم弹ية، أي أن هذه الوحدات تتكون فقط من أربع أنواع رئيسية، مما يقلل بشكل كبير من عدد المعلمات بمقدار 10 إلى 100 مرة، و2) يمكن تتبع جريان الاستدلال بشكل صريح من حيث انتباه الرسم البياني. تعتبر الوحدات العصبية القابلة للشرح والمحددة (XNMs) عامة للغاية بحيث تدعم مجموعة واسعة من تنفيذات الرسوم البيانية للمشهد بجودة متفاوتة. على سبيل المثال، عند الكشف عن الرسوم البيانية بدقة كاملة، تحقق الوحدات العصبية القابلة للشرح والمحددة (XNMs) دقة بنسبة 100٪ على كل من CLEVR وCLEVR CoGenT، مما يحدد حد أقصى أداءً عمليًا للاستدلال البصري؛ أما عند الكشف عن الرسوم البيانية بشكل غير دقيق من الصور الواقعية، فإن الوحدات العصبية القابلة للشرح والمحددة (XNMs) لا تزال قوية بما يكفي لتحقيق دقة تنافسية بنسبة 67.5٪ على VQAv2.0، مما يتفوق على نماذج الانتباه الشائعة التي تعتمد على حقيبة الأشياء دون وجود بنية رسم بياني.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاستدلال البصري القابل للتفسير والمحدد على الرسوم البيانية للمناظر | مستندات | HyperAI