HyperAIHyperAI

Command Palette

Search for a command to run...

تمثيل المتجهات الفعّال للوثائق من خلال التحريف

Minmin Chen

الملخص

نقدم إطارًا فعّالًا لتعلم تمثيل الوثائق، وهو إطار "تمثيل الوثيقة من خلال التلف" (Doc2VecC). يمثل Doc2VecC كل وثيقة كمتوسط بسيط لمتجهات الكلمات. ويضمن هذا الإطار أن التمثيل المُنشأ بهذه الطريقة يلتقط المعاني الدلالية للوثيقة أثناء عملية التعلم. يتضمن الإطار نموذج تلف (corruption model) يُدخل تنظيمًا معتمدًا على البيانات يفضل الكلمات المعلوماتية أو النادرة بينما يُجبر متجهات الكلمات الشائعة وغير المميزة على الاقتراب من الصفر. تنتج Doc2VecC متجهات كلمات أفضل بكثير من Word2Vec. قارنا Doc2VecC مع عدة خوارزميات متقدمة لتعلم تمثيل الوثائق. يتطابق هيكل النموذج البسيط الذي أدخله Doc2VecC أو يتفوق على الأحدث في إنشاء تمثيلات عالية الجودة للوثائق لأغراض تحليل المشاعر، تصنيف الوثائق وكذلك مهام الصلة الدلالية. يمكّن بساطة النموذج من التدريب على مليارات الكلمات في الساعة الواحدة على جهاز واحد. وفي الوقت نفسه، يكون النموذج جدًّا فعّالًا في إنشاء تمثيلات للوثائق غير المرئية وقت الاختبار.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp