شبكات التجميع الرسومية لتصنيف النصوص

تصنيف النص هو مشكلة مهمة وكلاسيكية في معالجة اللغة الطبيعية. قد تم إجراء العديد من الدراسات التي طبقت شبكات العصبونات التلافيفية (التلافيف على شبكة منتظمة، مثل التسلسل) للتصنيف. ومع ذلك، فإن عددًا محدودًا فقط من الدراسات قد استكشفت شبكات العصبونات التلافيفية الرسومية الأكثر مرونة (التلافيف على شبكة غير منتظمة، مثل الرسم البياني العشوائي) لهذه المهمة. في هذا البحث، نقترح استخدام شبكات العصبونات التلافيفية الرسومية لتصنيف النص. نقوم ببناء رسم بياني واحد للنص للمكتبة بناءً على تكرار الكلمات وعلاقات الكلمات الوثائقية، ثم نتعلم شبكة تلافيفية رسومية للنص (Text GCN) للمكتبة. يتم تهيئة شبكتنا Text GCN باستخدام تمثيل one-hot لكلمات ووثائق، ثم تقوم بتعلم التضمينات لكلمات ووثائق بشكل مشترك، تحت إشراف تصنيفات الوثائق المعروفة. تظهر نتائج تجاربنا على عدة مجموعات بيانات مرجعية أن شبكة Text GCN البسيطة بدون أي تضمينات كلمات خارجية أو معرفة تتفوق على أفضل الأساليب الحالية لتصنيف النص. من ناحية أخرى، تقوم شبكة Text GCN أيضًا بتعلم تضمينات كلمات ووثائق ذات قدرة تنبؤ. بالإضافة إلى ذلك، تشير نتائج التجارب إلى أن تحسن شبكة Text GCN على الأساليب المقارنة الحالية يصبح أكثر بروزًا عندما نقلل نسبة البيانات التدريبية، مما يشير إلى متانة شبكة Text GCN أمام بيانات التدريب الأقل في تصنيف النص.