تعزيز معالج الاعتماد التوليدية غير المراقبة من خلال المعلومات السياقية

تعتمد معظم نماذج التحليل الاعتمادي غير المُراقبة على النماذج الاحتمالية التوليدية التي تتعلم التوزيع المشترك للجملة المعطاة وتحليلها. وغالبًا ما تقوم هذه النماذج الاحتمالية التوليدية بتفكيك شجرة الاعتماد المرغوبة إلى قواعد نحوية مفككة، مما يفتقر إلى الخصائص الشاملة للجملة بأكملها. في هذه الورقة، نقترح نموذجًا احتماليًا جديدًا يُسمى "النموذج الاعتمادي العصبي التمييزي مع التكافؤ" (D-NDMV)، والذي يُولِّد الجملة وتحليلها من تمثيل خفي مستمر، يُشْرَك فيه معلومات سياقية شاملة للجملة المولَّدة. ونقدّم طريقتين لتمثيل هذا التمثيل الخفي: الأولى تُلخّص التمثيل بشكل محدد من الجملة، والثانية تُمثّل التمثيل احتماليًا بشرط الجملة. يمكن اعتبار منهجنا نوعًا جديدًا من نماذج المُشفِّر التلقائي (autoencoder) للتحليل الاعتمادي غير المُراقب، يجمع بين مزايا التقنيتين التوليدية والتمييزية. وبشكل خاص، يكسر منهجنا افتراض الاستقلال الحرفي للسياق (context-free independence) المُعتمد في النماذج التوليدية السابقة، مما يجعله أكثر قدرة على التعبير. وتشير النتائج التجريبية الواسعة التي أجريناها على سبعة عشر مجموعة بيانات من مصادر متنوعة إلى أن منهجنا يحقق دقة تنافسية مقارنةً بأشهر النماذج التوليدية والتمييزية المتطورة في التحليل الاعتمادي غير المُراقب.