منذ 7 أشهر

الملخص

الحوار البصري (VisDial) هو مهمة تتطلب من وكيل الذكاء الاصطناعي الإجابة على سلسلة من الأسئلة التي ترتبط بصورة. على عكس الإجابة على الأسئلة البصرية (VQA)، يجب أن تكون سلسلة الأسئلة قادرة على التقاط السياق الزمني من تاريخ الحوار واستغلال المعلومات المرتبطة بصرياً. ينطوي مشكلة تسمى حل الإشارة البصرية على هذه التحديات، حيث يتطلب الأمر من الوكيل حل الإشارات الغامضة في سؤال معين وإيجاد الإشارات في صورة معينة. في هذا البحث، نقترح شبكات الانتباه المزدوجة (DAN) لحل الإشارة البصرية. تتكون DAN من نوعين من شبكات الانتباه، REFER وFIND. بصفة خاصة، يقوم وحدة REFER بتعلم العلاقات الكامنة بين سؤال معين وتاريخ الحوار باستخدام آلية انتباه ذاتي. أما وحدة FIND فتتلقى خصائص الصورة والتمثيلات المعروفة بالإشارة (أي، مخرجات وحدة REFER) كمدخلات، وتقوم بالترابط البصري عبر آلية انتباه من الأسفل إلى الأعلى. نقيم نموذجنا بشكل نوعي وكمي على مجموعتي بيانات VisDial v1.0 وv0.9، مما يظهر أن DAN تتفوق بشكل كبير على النموذج السابق الأكثر تقدماً في هذا المجال.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكات الانتباه المزدوجة لحل الإشارات المرجعية البصرية في الحوار البصري

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكات الانتباه المزدوجة لحل الإشارات المرجعية البصرية في الحوار البصري

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكات الانتباه المزدوجة لحل الإشارات المرجعية البصرية في الحوار البصري

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters