HyperAIHyperAI
منذ 12 أيام

توليد تمثيلات النص والكود بواسطة التدريب المقابل المسبق

Arvind Neelakantan, Tao Xu, Raul Puri, Alec Radford, Jesse Michael Han, Jerry Tworek, Qiming Yuan, Nikolas Tezak, Jong Wook Kim, Chris Hallacy, Johannes Heidecke, Pranav Shyam, Boris Power, Tyna Eloundou Nekoul, Girish Sastry, Gretchen Krueger, David Schnurr, Felipe Petroski Such, Kenny Hsu, Madeleine Thompson, Tabarak Khan, Toki Sherbakov, Joanne Jang, Peter Welinder, Lilian Weng
توليد تمثيلات النص والكود بواسطة التدريب المقابل المسبق
الملخص

تمثيلات النص (Text embeddings) تمثل ميزات مفيدة في العديد من التطبيقات مثل البحث الدلالي وحساب تشابه النصوص. في الدراسات السابقة، كان يتم عادةً تدريب نماذج مخصصة لكل حالة استخدام، تتباين في اختيار البيانات، ووظيفة التدريب، وبنية النموذج. في هذه الدراسة، نُظهر أن التدريب المُتَقَوِّم (contrastive pre-training) على بيانات غير مُوسَّمة على نطاق واسع يؤدي إلى تمثيلات متجهة عالية الجودة للنص والكود. وتكشف التمثيلات النصية غير المُوسَّمة نفسها، التي حققت نتائجًا جديدة على مستوى الحد الأقصى (state-of-the-art) في التصنيف باستخدام التحريض الخطي (linear-probe classification)، عن قدرات مذهلة في البحث الدلالي، وأحيانًا تُظهر أداءً تنافسيًا مع النماذج المُعدَّلة (fine-tuned) بشكل مباشر. وبالنسبة لدقة التصنيف باستخدام التحريض الخطي، وعند متوسط التقييم على 7 مهام، حقق أفضل نموذج غير مُوسَّم لدينا تحسينًا نسبيًا بنسبة 4% و1.8% مقارنةً بأفضل نموذج غير مُوسَّم وأفضل نموذج مُوسَّع (supervised) للتمثيلات النصية السابقين على التوالي. وعند تقييم نفس التمثيلات النصية في سياق البحث الدلالي على نطاق واسع، حققت تحسنًا نسبيًا بنسبة 23.4% و14.7% و10.6% مقارنةً بأفضل الطرق غير المُوسَّمة السابقة في معايير MSMARCO وNatural Questions وTriviaQA على التوالي. وبشكل مشابه لتمثيلات النص، قمنا بتدريب نماذج تمثيل الكود على أزواج (نص، كود)، ما أسفر عن تحسن نسبي بنسبة 20.8% مقارنةً بأفضل أعمال سابقة في بحث الكود.

توليد تمثيلات النص والكود بواسطة التدريب المقابل المسبق | أحدث الأوراق البحثية | HyperAI