HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات الانتباه المزدوجة للمنطق متعدد الوسائط والتطابق

Hyeonseob Nam; Jung-Woo Ha; Jeonghee Kim

الملخص

نقترح شبكات الانتباه الثنائية (DANs) التي تستخدم آليات الانتباه البصري والنصي بشكل مشترك لالتقاط التفاعلات الدقيقة بين الرؤية واللغة. تقوم شبكات الانتباه الثنائية بالتركيز على مناطق محددة في الصور وكلمات في النص عبر خطوات متعددة وجمع المعلومات الأساسية من كلا الوسطين. بناءً على هذا الإطار، نقدم نوعين من شبكات الانتباه الثنائية للاستدلال المتعدد الأوضاع ومطابقة الأوضاع، على التوالي. يسمح نموذج الاستدلال لآليات الانتباه البصري والنصي بتحريك بعضها البعض أثناء الاستدلال التعاوني، مما يكون مفيدًا للمهام مثل الإجابة على الأسئلة البصرية (VQA). بالإضافة إلى ذلك، يستخدم نموذج المطابقة الآليتين لتقدير التشابه بين الصور والجمل من خلال التركيز على معانيهما المشتركة. تؤكد تجاربنا الواسعة فعالية شبكات الانتباه الثنائية في دمج الرؤية واللغة، حيث حققت أداءً رائدًا في مقاييس عامة للإجابة على الأسئلة البصرية ومطابقة الصورة والنّص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp