HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه البصري المتكرر في الحوار البصري

Yulei Niu Hanwang Zhang Manli Zhang Jianhong Zhang Zhiwu Lu Ji-Rong Wen

الملخص

الحوار البصري هو مهمة صعبة تجمع بين الرؤية واللغة، وتتطلب من الوكيل الإجابة على أسئلة متعددة الأدوار حول صورة. عادةً ما يتطلب حل هذه المهمة مواجهة مشكلتين رئيسيتين: (1) كيفية الإجابة على الأسئلة المرتبطة بصرياً، وهي التحدي الأساسي في مجال الإجابة على الأسئلة البصرية (VQA)؛ (2) كيفية استنتاج الارتباط المشترك بين الأسئلة وسجل الحوار. مثال على الارتباط البصري المشترك هو: الروابط (\eg، "هُم") في السؤال (\eg، "هل هُم مضاءون أم معتمون؟") ترتبط بالأسماء (\eg، "المصابيح") التي تظهر في سجل الحوار (\eg، "كم عدد المصابيح الموجودة؟") والكائنات المرتبطة بصرياً في الصورة. في هذا العمل، لحل مشكلة الارتباط البصري المشترك في الحوار البصري، نقترح آلية انتباه جديدة تسمى الانتباه البصري المتكرر (RvA). بصفة خاصة، يتصفح وكيلنا سجل الحوار حتى يكتسب ثقة كافية في حل مشكلة الارتباط البصري المشترك، ويقوم بتحسين الانتباه البصري بشكل متكرر. النتائج التجريبية الكمية والنوعية على قاعدة بيانات VisDial v0.9 وv1.0 الضخمة تثبت أن الآلية المقترحة RvA لا فقط تتفوق على أفضل الأساليب الحالية فحسب، بل أيضاً تحقق تكراراً معقولاً وخرائط انتباه قابلة للتفسير دون الحاجة إلى تعليقات إضافية. يمكن الوصول إلى الكود من خلال الرابط \url{https://github.com/yuleiniu/rva}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp