HyperAIHyperAI
منذ 11 أيام

محادثة متعددة الوسائط في مجال مفتوح

Kurt Shuster, Eric Michael Smith, Da Ju, Jason Weston
محادثة متعددة الوسائط في مجال مفتوح
الملخص

أظهرت الدراسات الحديثة في مجال الوكلاء التفاعليين في المجال المفتوح أن تحسينات كبيرة في مقاييس جاذبية النموذج ودرجة التماثل البشري يمكن تحقيقها من خلال التوسع الكبير في حجم بيانات التدريب المسبق وحجم النموذج نفسه (Adiwardana et al., 2020; Roller et al., 2020). ومع ذلك، إذا أردنا بناء وكلاء يتمتعون بقدرات شبيهة بالبشر، فيجب أن نتجاوز التعامل مع النصوص فقط. ويشكل القدرة على رؤية الصور والتحدث حول ما يُدرك من أهم المواضيع. وبهدف تفعيل التفاعل البشري في المحادثات متعددة الوسائط، نستعرض دمج مكونات من أحدث نماذج الحوار في المجال المفتوح مع مكونات من أحدث نماذج الرؤية الحاسوبية. وندرس دمج أساليب مختلفة لدمج الصور، واستراتيجيات التدريب المسبق والتحسين المخصص للنطاق، ونُظهر أن أفضل نموذج نحصل عليه يتفوق في المحادثة متعددة الوسائط على النماذج القوية الحالية، في الوقت الذي يُبقي فيه أداءه مماثلاً للنموذج السابق (BlenderBot النصي فقط) (Roller et al., 2020) في المحادثات القائمة على النص. بالإضافة إلى ذلك، نستعرض ونُدمج مكونات الأمان في نموذجنا النهائي، ونُظهر أن هذه الجهود لا تؤثر سلبًا على أداء النموذج من حيث مقاييس الجاذبية.

محادثة متعددة الوسائط في مجال مفتوح | أحدث الأوراق البحثية | HyperAI