منذ 6 أشهر

الملخص

أظهرت الدراسات الحديثة في مجال الوكلاء التفاعليين في المجال المفتوح أن تحسينات كبيرة في مقاييس جاذبية النموذج ودرجة التماثل البشري يمكن تحقيقها من خلال التوسع الكبير في حجم بيانات التدريب المسبق وحجم النموذج نفسه (Adiwardana et al., 2020; Roller et al., 2020). ومع ذلك، إذا أردنا بناء وكلاء يتمتعون بقدرات شبيهة بالبشر، فيجب أن نتجاوز التعامل مع النصوص فقط. ويشكل القدرة على رؤية الصور والتحدث حول ما يُدرك من أهم المواضيع. وبهدف تفعيل التفاعل البشري في المحادثات متعددة الوسائط، نستعرض دمج مكونات من أحدث نماذج الحوار في المجال المفتوح مع مكونات من أحدث نماذج الرؤية الحاسوبية. وندرس دمج أساليب مختلفة لدمج الصور، واستراتيجيات التدريب المسبق والتحسين المخصص للنطاق، ونُظهر أن أفضل نموذج نحصل عليه يتفوق في المحادثة متعددة الوسائط على النماذج القوية الحالية، في الوقت الذي يُبقي فيه أداءه مماثلاً للنموذج السابق (BlenderBot النصي فقط) (Roller et al., 2020) في المحادثات القائمة على النص. بالإضافة إلى ذلك، نستعرض ونُدمج مكونات الأمان في نموذجنا النهائي، ونُظهر أن هذه الجهود لا تؤثر سلبًا على أداء النموذج من حيث مقاييس الجاذبية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار