VaeDiff-DocRE: إطار شامل لتوسيع البيانات للاستخراج العلائقي على مستوى الوثيقة

استخراج العلاقات على مستوى الوثيقة (DocRE) يهدف إلى تحديد العلاقات بين أزواج الكيانات داخل وثيقة. ومع ذلك، فإن معظم الطرق الحالية تفترض توزيعًا موحدًا للتصنيفات، مما يؤدي إلى أداء غير مثالي على قواعد البيانات غير المتوازنة في العالم الحقيقي. لمعالجة هذا التحدي، نقترح نهجًا جديدًا لتضخيم البيانات باستخدام النماذج التوليدية لتعزيز البيانات من الفضاء المدمج. طريقتنا تستفيد من بنية المُشغِّل التلقائي المتغير (VAE) لالتقاط جميع التوزيعات المتعلقة بالعلاقات التي تشكلها تمثيلات أزواج الكيانات وتضخيم البيانات للعلاقات التي لا يتم تمثيلها بشكل كافٍ. لالتقاط الطبيعة متعددة التصنيفات لـ DocRE بشكل أفضل، نقوم بتحديد فضاء الكامن للمشغل التلقائي المتغير (VAE) باستخدام نموذج الانتشار (Diffusion Model). بالإضافة إلى ذلك، نقدم إطار تدريب هرمي لدمج وحدة تضخيم البيانات المقترحة القائمة على المشغل التلقائي المتغير (VAE) في أنظمة استخراج العلاقات على مستوى الوثيقة (DocRE). تُظهر التجارب على قاعدتين معياريتين للبيانات أن طريقتنا تتفوق على النماذج الرائدة حاليًا، معالجةً بشكل فعال مشكلة التوزيع ذي الذيل الطويل في DocRE.