HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة انتباه متعددة المقاييس للحوار البصري

Sungjin Park Taesun Whang Yeochan Yoon Heuiseok Lim

الملخص

المحادثة البصرية هي مهمة صعبة في مجال الرؤية واللغة، حيث يتم الإجابة على سلسلة من الأسئلة التي تُستند بصريًا إلى صورة معطاة. ولحل مهمة المحادثة البصرية، يُطلب فهم عالي المستوى للإدخالات متعددة الوسائط المختلفة (مثل السؤال، تاريخ المحادثة، والصورة). وبشكل خاص، يجب على الوكيل أن: 1) يحدد النية المعجمية للسؤال، و2) يُنسق بين المحتويات النصية والبصرية ذات الصلة بالسؤال ضمن إدخالات متعددة الوسائط غير المتجانسة. في هذه الورقة، نقترح شبكة الانتباه متعددة المقاييس (MVAN)، التي تُستفيد من عدة وجهات نظر تتعلق بالإدخالات غير المتجانسة باستخدام آليات الانتباه. وتُمكّن MVAN من التقاط المعلومات ذات الصلة بالسؤال من تاريخ المحادثة من خلال وظيفتين متكاملتين (ألا وهما: تجميع الموضوعات، وتطابق السياق)، كما تُبنى تمثيلات متعددة الوسائط من خلال عمليات تزامن متسلسلة (ألا وهي: تزامن الوسائط). وتُظهر النتائج التجريبية على مجموعة بيانات VisDial v1.0 فعالية النموذج المقترح، حيث يتفوق على الطرق الرائدة السابقة من حيث جميع مقاييس التقييم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp