تعلم تضمين السياقات متعددة الوسائط لوكالات المحادثة المُحاطة

تهدف مبادرة المحادثات التفاعلية الموضعية متعددة الوسائط (SIMMC) 2.0 إلى إنشاء مساعدات تسوق افتراضية قادرة على استقبال مدخلات متعددة الوسائط معقدة، أي مظهر الكائنات البصرية والتصريحات الصوتية للمستخدم. وتشمل المبادرة أربع مهام فرعية: توضيح الغموض متعدد الوسائط (MM-Disamb)، وحل التماثل متعدد الوسائط (MM-Coref)، وتتبع حالة المحادثة متعددة الوسائط (MM-DST)، واسترجاع وإنشاء الاستجابة. في حين أن العديد من أنظمة المحادثات الموجهة للمهمات تعالج كل مهمة فرعية بشكل منفصل، نقترح نموذجًا موحدًا مُدرَّسًا بشكل مشترك للكودر-ديكودر متعدد الوسائط يدمج المدخلات البصرية ويُنفّذ جميع المهام الأربع في وقت واحد، مما يحقق كفاءة عالية. وقد حقق هذا النهج الفوز في المهمتين الفرعيتين لحل التماثل متعدد الوسائط واسترجاع الاستجابة، وتم ترشيحه كمرشح للمركز الثاني في المهام الفرعية المتبقية باستخدام نموذج موحد واحد في الدورة العاشرة من مسابقة تقنيات أنظمة المحادثة (DSTC10)، مما وضع معيارًا عاليًا للعمل الجديد في مجال أنظمة المحادثة الموجهة للمهمات متعددة الوسائط.