منذ 2 أشهر
التمثيل المشترك للكلمات والعلامات لتصنيف النصوص
Guoyin Wang; Chunyuan Li; Wenlin Wang; Yizhe Zhang; Dinghan Shen; Xinyuan Zhang; Ricardo Henao; Lawrence Carin

الملخص
التمثيلات الكلامية (word embeddings) هي تمثيلات فعالة وسطية لالتقاط التوافق الدلالي بين الكلمات عند تعلم تمثيلات سلاسل النص. نقترح النظر إلى تصنيف النص كمشكلة تمثيل مشترك بين العلامات والكلمات: يتم تمثيل كل علامة في نفس الفضاء مع متجهات الكلمات. نقدم إطارًا للانتباه يقيس توافق التمثيلات بين سلاسل النص والعلامات. يتم تعلم الانتباه على مجموعة تدريب من العينات المصنفة لضمان أن، عند إعطاء سلسلة نص، يتم وزن الكلمات ذات الصلة بشكل أعلى من الكلمات غير ذات الصلة. طريقتنا تحافظ على قابلية التفسير للتمثيلات الكلامية، وتتمتع بقدرة مدمجة على الاستفادة من مصادر المعلومات البديلة بالإضافة إلى سلاسل النص الإدخالية. تظهر النتائج الواسعة على عدة قواعد بيانات نص كبيرة أن الإطار المقترح يتفوق على الأساليب الرائدة بمقدار كبير، سواءً من حيث الدقة أو السرعة.