HyperAIHyperAI
منذ 7 أيام

تعلم تضمين السياقات متعددة الوسائط لوكالات المحادثة المُحاطة

{Kee-Eung Kim, Kangwook Lee, Haebin Shin, Youngjune Lee, Jinhyeon Kim, Yoonhyung Kim, Ran Han, Minho Park, Yunseon Choi, Oh Joon Kwon, Haeju Lee}
تعلم تضمين السياقات متعددة الوسائط لوكالات المحادثة المُحاطة
الملخص

تهدف مبادرة المحادثات التفاعلية الموضعية متعددة الوسائط (SIMMC) 2.0 إلى إنشاء مساعدات تسوق افتراضية قادرة على استقبال مدخلات متعددة الوسائط معقدة، أي مظهر الكائنات البصرية والتصريحات الصوتية للمستخدم. وتشمل المبادرة أربع مهام فرعية: توضيح الغموض متعدد الوسائط (MM-Disamb)، وحل التماثل متعدد الوسائط (MM-Coref)، وتتبع حالة المحادثة متعددة الوسائط (MM-DST)، واسترجاع وإنشاء الاستجابة. في حين أن العديد من أنظمة المحادثات الموجهة للمهمات تعالج كل مهمة فرعية بشكل منفصل، نقترح نموذجًا موحدًا مُدرَّسًا بشكل مشترك للكودر-ديكودر متعدد الوسائط يدمج المدخلات البصرية ويُنفّذ جميع المهام الأربع في وقت واحد، مما يحقق كفاءة عالية. وقد حقق هذا النهج الفوز في المهمتين الفرعيتين لحل التماثل متعدد الوسائط واسترجاع الاستجابة، وتم ترشيحه كمرشح للمركز الثاني في المهام الفرعية المتبقية باستخدام نموذج موحد واحد في الدورة العاشرة من مسابقة تقنيات أنظمة المحادثة (DSTC10)، مما وضع معيارًا عاليًا للعمل الجديد في مجال أنظمة المحادثة الموجهة للمهمات متعددة الوسائط.

تعلم تضمين السياقات متعددة الوسائط لوكالات المحادثة المُحاطة | أحدث الأوراق البحثية | HyperAI