منذ 7 أشهر

الملخص

نقدم إطارًا فعّالًا لتعلم تمثيل الوثائق، وهو إطار "تمثيل الوثيقة من خلال التلف" (Doc2VecC). يمثل Doc2VecC كل وثيقة كمتوسط بسيط لمتجهات الكلمات. ويضمن هذا الإطار أن التمثيل المُنشأ بهذه الطريقة يلتقط المعاني الدلالية للوثيقة أثناء عملية التعلم. يتضمن الإطار نموذج تلف (corruption model) يُدخل تنظيمًا معتمدًا على البيانات يفضل الكلمات المعلوماتية أو النادرة بينما يُجبر متجهات الكلمات الشائعة وغير المميزة على الاقتراب من الصفر. تنتج Doc2VecC متجهات كلمات أفضل بكثير من Word2Vec. قارنا Doc2VecC مع عدة خوارزميات متقدمة لتعلم تمثيل الوثائق. يتطابق هيكل النموذج البسيط الذي أدخله Doc2VecC أو يتفوق على الأحدث في إنشاء تمثيلات عالية الجودة للوثائق لأغراض تحليل المشاعر، تصنيف الوثائق وكذلك مهام الصلة الدلالية. يمكّن بساطة النموذج من التدريب على مليارات الكلمات في الساعة الواحدة على جهاز واحد. وفي الوقت نفسه، يكون النموذج جدًّا فعّالًا في إنشاء تمثيلات للوثائق غير المرئية وقت الاختبار.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار