HyperAIHyperAI

Command Palette

Search for a command to run...

MoVie: إعادة النظر في التحويلات المنظمة للعد البصري وما بعده

Duy-Kien Nguyen Vedanuj Goswami Xinlei Chen

الملخص

يتمحور هذا البحث حول التعداد البصري، والذي يهدف إلى التنبؤ بعدد وقائع معينة بناءً على صورة طبيعية واستعلام (مثل سؤال أو فئة). على عكس معظم الدراسات السابقة التي تعتمد على نماذج صريحة رمزية، والتي قد تكون مكلفة من الناحية الحسابية ومحصورة في القدرة على التعميم، نقترح بديلاً بسيطًا وفعالًا من خلال إعادة النظر في التحويلات المُعدّلة التي تدمج الاستعلام والصورة محليًا. مستلهمين من تصميم "العنق المقاوم" (residual bottleneck)، نُسمّي طريقتنا MoVie، وهي اختصار لـ "مُحولات تلافيفية مُعدّلة" (Modulated conVolutional bottlenecks). يُميّز MoVie عن غيرها التفكير الضمني والشامل، وتحتاج فقط إلى عملية واحدة للإدخال أثناء الاستدلال. ومع ذلك، تُظهر MoVie أداءً قويًا في المهمة: 1) تقدّم الحد الأقصى الحالي في مهام التساؤل البصري المخصصة للعد، مع كفاءة أعلى؛ 2) تتفوّق على الأداء السابق في معايير صعبة مثل COCO في مهام عد الكائنات الشائعة؛ 3) ساعدتنا في تحقيق المركز الأول في مسابقة VQA لعام 2020 عند دمجها كوحدة مخصصة للأسئلة المتعلقة بالعدد في النماذج العامة للتساؤل البصري. وأخيرًا، نقدّم أدلة تشير إلى أن التحويلات المُعدّلة، مثل MoVie، يمكن أن تُعدّ آلية عامة لمهام الاستدلال خارج نطاق التعداد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp