HyperAIHyperAI
منذ 2 أشهر

شبكات الانتباه المزدوجة لحل الإشارات المرجعية البصرية في الحوار البصري

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang
شبكات الانتباه المزدوجة لحل الإشارات المرجعية البصرية في الحوار البصري
الملخص

الحوار البصري (VisDial) هو مهمة تتطلب من وكيل الذكاء الاصطناعي الإجابة على سلسلة من الأسئلة التي ترتبط بصورة. على عكس الإجابة على الأسئلة البصرية (VQA)، يجب أن تكون سلسلة الأسئلة قادرة على التقاط السياق الزمني من تاريخ الحوار واستغلال المعلومات المرتبطة بصرياً. ينطوي مشكلة تسمى حل الإشارة البصرية على هذه التحديات، حيث يتطلب الأمر من الوكيل حل الإشارات الغامضة في سؤال معين وإيجاد الإشارات في صورة معينة. في هذا البحث، نقترح شبكات الانتباه المزدوجة (DAN) لحل الإشارة البصرية. تتكون DAN من نوعين من شبكات الانتباه، REFER وFIND. بصفة خاصة، يقوم وحدة REFER بتعلم العلاقات الكامنة بين سؤال معين وتاريخ الحوار باستخدام آلية انتباه ذاتي. أما وحدة FIND فتتلقى خصائص الصورة والتمثيلات المعروفة بالإشارة (أي، مخرجات وحدة REFER) كمدخلات، وتقوم بالترابط البصري عبر آلية انتباه من الأسفل إلى الأعلى. نقيم نموذجنا بشكل نوعي وكمي على مجموعتي بيانات VisDial v1.0 وv0.9، مما يظهر أن DAN تتفوق بشكل كبير على النموذج السابق الأكثر تقدماً في هذا المجال.

شبكات الانتباه المزدوجة لحل الإشارات المرجعية البصرية في الحوار البصري | أحدث الأوراق البحثية | HyperAI