
الملخص
تهدف مبادرة المحادثات التفاعلية الموضعية متعددة الوسائط (SIMMC) 2.0 إلى إنشاء مساعدات تسوق افتراضية قادرة على استقبال مدخلات متعددة الوسائط معقدة، أي مظهر الكائنات البصرية والتصريحات الصوتية للمستخدم. وتشمل المبادرة أربع مهام فرعية: توضيح الغموض متعدد الوسائط (MM-Disamb)، وحل التماثل متعدد الوسائط (MM-Coref)، وتتبع حالة المحادثة متعددة الوسائط (MM-DST)، واسترجاع وإنشاء الاستجابة. في حين أن العديد من أنظمة المحادثات الموجهة للمهمات تعالج كل مهمة فرعية بشكل منفصل، نقترح نموذجًا موحدًا مُدرَّسًا بشكل مشترك للكودر-ديكودر متعدد الوسائط يدمج المدخلات البصرية ويُنفّذ جميع المهام الأربع في وقت واحد، مما يحقق كفاءة عالية. وقد حقق هذا النهج الفوز في المهمتين الفرعيتين لحل التماثل متعدد الوسائط واسترجاع الاستجابة، وتم ترشيحه كمرشح للمركز الثاني في المهام الفرعية المتبقية باستخدام نموذج موحد واحد في الدورة العاشرة من مسابقة تقنيات أنظمة المحادثة (DSTC10)، مما وضع معيارًا عاليًا للعمل الجديد في مجال أنظمة المحادثة الموجهة للمهمات متعددة الوسائط.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| dialogue-state-tracking-on-simmc2-0 | BART-base | Act F1: 95.2 Slot F1: 82.0 |
| dialogue-state-tracking-on-simmc2-0 | BART-large | Act F1: 96.3 Slot F1: 88.3 |
| response-generation-on-simmc2-0 | BART-large | BLEU: 33.1 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.