منذ 8 أشهر

الملخص

الحوار البصري هو مهمة تتمثل في الإجابة على سلسلة من الأسئلة المرتبطة ببعضها البعض بناءً على صورة مدخلة، وغالبًا ما يتطلب حل الإشارات البصرية بين الأسئلة. هذا المشكلة تختلف عن الإجابة على الأسئلة البصرية (VQA)، والتي تعتمد على الانتباه المكاني (المعروف أيضًا بالترسيخ البصري) الذي يتم تقديره من زوج الصورة والسؤال. نقترح آلية انتباه جديدة تستفيد من الانتباهاات البصرية السابقة لحل الإشارة الحالية في سيناريو الحوار البصري. يُجهز النموذج المقترح بذاكرة انتباه ترابطية تخزن سلسلة من أزواج (الانتباه، المفتاح) السابقة. من هذه الذاكرة، يستعيد النموذج الانتباه السابق الأكثر صلة بالسؤال الحالي مع مراعاة حديثيته، وذلك لحل الإشارات المحتمل أن تكون غامضة. ثم يقوم النموذج بدمج الانتباه المستعاد مع انتباه مؤقت للحصول على الانتباه النهائي للسؤال الحالي؛ بشكل خاص، نستخدم التنبؤ الديناميكي للمعلمات لدمج الانتباهاات الاثنين تحت شرط السؤال. من خلال التجارب الواسعة على مجموعة بيانات حوار بصري مصنوعة جديدة، نظهر أن نموذجنا يتفوق بشكل كبير على أفضل التقنيات الحالية (بنسبة حوالي 16 نقطة مئوية) في الحالات التي يلعب فيها حل الإشارات البصرية دورًا مهمًا. علاوة على ذلك، حقق النموذج المقترح أداءً أفضل (تحسّن بنسبة حوالي 2 نقطة مئوية) في مجموعة بيانات الحوار البصري، رغم أنه يحتوي على عدد أقل بكثير من المعلمات مقارنة بالأساليب الأساسية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Paul Hongsuck Seo Andreas Lehrmann Bohyung Han Leonid Sigal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Paul Hongsuck Seo Andreas Lehrmann Bohyung Han Leonid Sigal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Paul Hongsuck Seo Andreas Lehrmann Bohyung Han Leonid Sigal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الحل المرجعي البصري باستخدام ذاكرة الانتباه للحوار البصري

Paul Hongsuck Seo Andreas Lehrmann Bohyung Han Leonid Sigal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الحل المرجعي البصري باستخدام ذاكرة الانتباه للحوار البصري

Paul Hongsuck Seo Andreas Lehrmann Bohyung Han Leonid Sigal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الحل المرجعي البصري باستخدام ذاكرة الانتباه للحوار البصري

Paul Hongsuck Seo Andreas Lehrmann Bohyung Han Leonid Sigal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters