HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات الانتباه المزدوجة لحل الإشارات المرجعية البصرية في الحوار البصري

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

الملخص

الحوار البصري (VisDial) هو مهمة تتطلب من وكيل الذكاء الاصطناعي الإجابة على سلسلة من الأسئلة التي ترتبط بصورة. على عكس الإجابة على الأسئلة البصرية (VQA)، يجب أن تكون سلسلة الأسئلة قادرة على التقاط السياق الزمني من تاريخ الحوار واستغلال المعلومات المرتبطة بصرياً. ينطوي مشكلة تسمى حل الإشارة البصرية على هذه التحديات، حيث يتطلب الأمر من الوكيل حل الإشارات الغامضة في سؤال معين وإيجاد الإشارات في صورة معينة. في هذا البحث، نقترح شبكات الانتباه المزدوجة (DAN) لحل الإشارة البصرية. تتكون DAN من نوعين من شبكات الانتباه، REFER وFIND. بصفة خاصة، يقوم وحدة REFER بتعلم العلاقات الكامنة بين سؤال معين وتاريخ الحوار باستخدام آلية انتباه ذاتي. أما وحدة FIND فتتلقى خصائص الصورة والتمثيلات المعروفة بالإشارة (أي، مخرجات وحدة REFER) كمدخلات، وتقوم بالترابط البصري عبر آلية انتباه من الأسفل إلى الأعلى. نقيم نموذجنا بشكل نوعي وكمي على مجموعتي بيانات VisDial v1.0 وv0.9، مما يظهر أن DAN تتفوق بشكل كبير على النموذج السابق الأكثر تقدماً في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكات الانتباه المزدوجة لحل الإشارات المرجعية البصرية في الحوار البصري | مستندات | HyperAI