التحديد الصرفي للكلمات في تويتر باستخدام الشبكات العصبية المضادة

في هذه الدراسة، نتناول مشكلة تحديد الفئات النحوية (Part-of-Speech Tagging) للمنشورات القصيرة (Tweets). على عكس المقالات الصحفية، غالبًا ما تكون منشورات تويتر غير رسمية وتحتوي على عدد كبير من الكلمات التي لا توجد في قاموس المفردات (Out-of-Vocabulary). علاوةً على ذلك، تفتقر هذه المنطقة إلى مجموعات بيانات مُسَمَّاة واسعة النطاق. ولتَحَدُّ هذه التحديات، نقترح شبكة عصبية جديدة تُستخدَم فيها بيانات مُسَمَّاة من مجالات خارجية، وبيانات غير مُسَمَّاة من المجال المستهدف، بالإضافة إلى بيانات مُسَمَّاة من المجال نفسه. مستوحاة من الشبكات العصبية المضادة (Adversarial Neural Networks)، تسعى الطريقة المقترحة إلى تعلُّم ميزات مشتركة من خلال مُميِّز مُضاد (Adversarial Discriminator). وبالإضافة إلى ذلك، نفترض أن الميزات المُميِّزة للمجال المستهدف ينبغي أن تُحتفَظ بها إلى حدٍ ما. ولذلك، تستخدم الطريقة المقترحة مُشفِّرًا تسلسليًا ثنائي الاتجاه (Sequence-to-Sequence Autoencoder) لتحقيق هذا الهدف. أظهرت النتائج التجريبية على ثلاث مجموعات بيانات مختلفة أن أداء الطريقة المقترحة يفوق الأداء المُحقَّق من قبل أفضل الطرق الحالية.