محادثة متعددة الوسائط في مجال مفتوح

أظهرت الدراسات الحديثة في مجال الوكلاء التفاعليين في المجال المفتوح أن تحسينات كبيرة في مقاييس جاذبية النموذج ودرجة التماثل البشري يمكن تحقيقها من خلال التوسع الكبير في حجم بيانات التدريب المسبق وحجم النموذج نفسه (Adiwardana et al., 2020; Roller et al., 2020). ومع ذلك، إذا أردنا بناء وكلاء يتمتعون بقدرات شبيهة بالبشر، فيجب أن نتجاوز التعامل مع النصوص فقط. ويشكل القدرة على رؤية الصور والتحدث حول ما يُدرك من أهم المواضيع. وبهدف تفعيل التفاعل البشري في المحادثات متعددة الوسائط، نستعرض دمج مكونات من أحدث نماذج الحوار في المجال المفتوح مع مكونات من أحدث نماذج الرؤية الحاسوبية. وندرس دمج أساليب مختلفة لدمج الصور، واستراتيجيات التدريب المسبق والتحسين المخصص للنطاق، ونُظهر أن أفضل نموذج نحصل عليه يتفوق في المحادثة متعددة الوسائط على النماذج القوية الحالية، في الوقت الذي يُبقي فيه أداءه مماثلاً للنموذج السابق (BlenderBot النصي فقط) (Roller et al., 2020) في المحادثات القائمة على النص. بالإضافة إلى ذلك، نستعرض ونُدمج مكونات الأمان في نموذجنا النهائي، ونُظهر أن هذه الجهود لا تؤثر سلبًا على أداء النموذج من حيث مقاييس الجاذبية.