ITER: اعتراف بالكيانات واستخراج العلاقات القائمة على التحويل التكراري

عند استخراج المعلومات المُهيكلة من النص، يُعد التعرف على الكيانات واستخراج العلاقات أمرين أساسيين. وقد أدى التقدم الحديث في كلا المهمتين إلى تمثيل المعلومات بشكل مهيكل بطريقة توليدية متسلسلة (autoregressive)، وهي طريقة تستهلك وقتًا طويلاً وتكاليف حسابية كبيرة. وهذا يطرح بشكل طبيعي سؤالًا حول ما إذا كانت الطرق التوليدية المتسلسلة ضرورية لتحقيق نتائج مماثلة. في هذا العمل، نقترح نموذج ITER، وهو نموذج فعّال لاستخراج العلاقات يقوم على المُشفِّر (encoder-based)، ويُنفّذ المهمة في ثلاث خطوات قابلة للتوازي، مما يُسرّع بشكل كبير من أداء النهج الحديث القائم على نمذجة اللغة: حيث يحقق ITER معدل استجابة استخلاص (inference throughput) يفوق 600 عينة في الثانية لنموذج كبير على بطاقة رسوميات استهلاكية واحدة. علاوةً على ذلك، نحقق نتائجًا رائدة في مجالات البيانات الخاصة باستخراج العلاقات مثل ADE وACE05، ونُظهر أداءً تنافسيًا في التعرف على الكيانات الاسمية باستخدام مجموعتي بيانات GENIA وCoNLL03، وكذلك في استخراج العلاقات باستخدام مجموعتي بيانات SciERC وCoNLL04.