HyperAIHyperAI

Command Palette

Search for a command to run...

Visual Commonsense R-CNN

Tan Wang Jianqiang Huang Hanwang Zhang Qianru Sun

الملخص

نقدم طريقة جديدة لتعلم تمثيل الميزات دون تدريب مراقبة، تُسمى الشبكة العصبية التلافيفية القائمة على مناطق المعرفة الشائعة البصرية (VC R-CNN)، لتُستخدم كمُشفر مناطق بصريّة مُحسَّن لمهام عالية المستوى مثل إنشاء العناوين التوضيحية (Captioning) وفهم الصور (VQA). بالنظر إلى مجموعة من مناطق الكائنات المُكتشفة في صورة (مثلاً باستخدام Faster R-CNN)، تشبه VC R-CNN من حيث المبدأ الطرق الأخرى لتعلم الميزات دون تدريب مراقبة (مثل word2vec)، حيث يُعتمد في الهدف التدريبي البديل (Proxy Training Objective) على التنبؤ بالكائنات السياقية المرتبطة بمنطقة معينة. لكنها تختلف جوهريًا: ففي VC R-CNN، يتم التنبؤ باستخدام تدخل سببي: ( P(Y|do(X)) )، بينما تعتمد الطرق الأخرى على الاحتمال التقليدي: ( P(Y|X) ). وهذا هو السبب الأساسي الذي يجعل VC R-CNN قادرة على تعلُّم معرفة نوع "فهم السياق" مثل أن الكرسي يمكن الجلوس عليه — بدلًا من مجرد تكرارات شائعة مثل أن الكرسي غالبًا ما يُوجد إذا رُئي طاولة. قمنا بتطبيق ميزات VC R-CNN بشكل واسع في النماذج الشائعة لثلاثة مهام شائعة: إنشاء العناوين التوضيحية للصور، وفهم الصور (VQA)، وتمييز السياق المرئي (VCR)، ولاحظنا تحسنًا متسقًا في الأداء عبر جميع هذه المهام، ما أدى إلى تحقيق العديد من أفضل النتائج المُحققة حتى الآن (State-of-the-Art). يمكن الوصول إلى الكود والميزات عبر الرابط: https://github.com/Wangt-CN/VC-R-CNN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp