الملخص

نقدم مهمة الحوار البصري (Visual Dialog)، والتي تتطلب من وكيل الذكاء الاصطناعي إجراء حوار ذي معنى مع البشر بلغة محادثة طبيعية حول المحتوى البصري. بصفة خاصة، عند تقديم صورة وتاريخ للمحادثة وسؤال عن الصورة، يجب على الوكيل أن يربط السؤال بالصورة، يستنتج السياق من التاريخ، ويجيب على السؤال بدقة. يتم فصل الحوار البصري بشكل كافٍ عن مهمة نهائية محددة بحيث يمكنه أن يخدم كاختبار عام للذكاء الآلي، بينما يكون مرتبطًا بالرؤية بما يكفي لتمكين تقييم موضوعي للردود الفردية وتتبع التقدم في المعايير.طورنا بروتوكول جمع بيانات جديد للدردشة بين شخصين لجمع مجموعة بيانات حوار بصري كبيرة الحجم (VisDial). تحتوي النسخة 0.9 من VisDial على حوار واحد يتضمن 10 أزواج من الأسئلة وال réponses على حوالي 120 ألف صورة من COCO، بإجمالي حوالي 1.2 مليون زوج من أسئلة الحوار وال réponses.نقدم عائلة من نماذج الشفرات العصبية المفككة للحوار البصري تتضمن ثلاثة شفرات عصبية -- الاندماج المتأخر (Late Fusion)، الكودر المتكرر الهرمي (Hierarchical Recurrent Encoder) وشبكة الذاكرة (Memory Network) -- ومشفرين اثنين (مولد وتمييز)، والتي تتفوق على عدد من الخطوط الأساسية المعقدة. نقترح بروتوكول تقييم قائم على الاسترجاع للحوار البصري حيث يُطلب من وكيل الذكاء الاصطناعي تصنيف مجموعة من الإجابات المرشحة وتقييمه بناءً على مقاييس مثل الرتبة المتبادلة المتوسطة للرد البشري. نقوم بتقدير الفجوة بين أداء الآلة والأداء البشري في مهمة الحوار البصري عبر دراسات بشرية. عندما نجمع كل هذه العناصر معًا، نظهر أول "دردشة بصريّة"!مجموعتنا من البيانات والرموز والنماذج التي تم تدريبها والدردشة البصرية متاحة على https://visualdialog.org

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار