HyperAIHyperAI
منذ 12 أيام

الترجمة المتسقة المُعززة بالتوافق لاستخراج المعلومات المفتوحة متعددة اللغات

{Mausam ., Soumen Chakrabarti, Shubham Mittal, Muqeeth Mohammed, Keshav Kolluru}
الترجمة المتسقة المُعززة بالتوافق لاستخراج المعلومات المفتوحة متعددة اللغات
الملخص

تُعد التقدم المحرز في مجال استخراج المعلومات المفتوحة المُراقب (OpenIE) محدودًا بشكل رئيسي باللغة الإنجليزية بسبب ندرة بيانات التدريب في اللغات الأخرى. في هذه الورقة، نستكشف تقنيات لتحويل النصوص الإنجليزية تلقائيًا بهدف تدريب نماذج استخراج المعلومات المفتوحة في لغات أخرى. نُقدّم نموذج الترجمة المُعزّز بالتوافق (AACTrans) الذي يُترجم الجمل الإنجليزية واستخلاصاتها المرتبطة بها بشكل متناسق مع بعضها البعض، دون أي تغيير في المفردات أو المعنى الدلالي الذي قد ينشأ من عمليات ترجمة منفصلة. باستخدام البيانات المُولَّدة بواسطة نموذج AACTrans، نُدرّب نموذجًا جديدًا مُكوَّنًا من مرحلتين لاستخراج المعلومات المفتوحة القائم على التوليد، ونسميه Gen2OIE، والذي يُخرِج لكل جملة: 1) العلاقات في المرحلة الأولى، و2) جميع الاستخلاصات التي تحتوي على تلك العلاقة في المرحلة الثانية. يُحسّن Gen2OIE تغطية العلاقات باستخدام تقنية تحويل بيانات التدريب التي يمكن تعميمها على عدة لغات، على عكس النماذج الحالية التي تعتمد على دالة خسارة مخصصة للغة الإنجليزية. أظهرت التقييمات على خمس لغات — الإسبانية، البرتغالية، الصينية، الهندية، والتيلوغو — أن نموذج Gen2OIE المستند إلى بيانات AACTrans يتفوّق على النماذج السابقة بنسبة تتراوح بين 6% و25% من حيث دقة F1.

الترجمة المتسقة المُعززة بالتوافق لاستخراج المعلومات المفتوحة متعددة اللغات | أحدث الأوراق البحثية | HyperAI