HyperAIHyperAI
منذ 2 أشهر

تمثيل المتجهات الفعّال للوثائق من خلال التحريف

Minmin Chen
تمثيل المتجهات الفعّال للوثائق من خلال التحريف
الملخص

نقدم إطارًا فعّالًا لتعلم تمثيل الوثائق، وهو إطار "تمثيل الوثيقة من خلال التلف" (Doc2VecC). يمثل Doc2VecC كل وثيقة كمتوسط بسيط لمتجهات الكلمات. ويضمن هذا الإطار أن التمثيل المُنشأ بهذه الطريقة يلتقط المعاني الدلالية للوثيقة أثناء عملية التعلم. يتضمن الإطار نموذج تلف (corruption model) يُدخل تنظيمًا معتمدًا على البيانات يفضل الكلمات المعلوماتية أو النادرة بينما يُجبر متجهات الكلمات الشائعة وغير المميزة على الاقتراب من الصفر. تنتج Doc2VecC متجهات كلمات أفضل بكثير من Word2Vec. قارنا Doc2VecC مع عدة خوارزميات متقدمة لتعلم تمثيل الوثائق. يتطابق هيكل النموذج البسيط الذي أدخله Doc2VecC أو يتفوق على الأحدث في إنشاء تمثيلات عالية الجودة للوثائق لأغراض تحليل المشاعر، تصنيف الوثائق وكذلك مهام الصلة الدلالية. يمكّن بساطة النموذج من التدريب على مليارات الكلمات في الساعة الواحدة على جهاز واحد. وفي الوقت نفسه، يكون النموذج جدًّا فعّالًا في إنشاء تمثيلات للوثائق غير المرئية وقت الاختبار.

تمثيل المتجهات الفعّال للوثائق من خلال التحريف | أحدث الأوراق البحثية | HyperAI