دراسة استخراج المعلومات: خذ تجزئة الرموز بعين الاعتبار!

أصبح البحث الحالي حول المزايا والتنازلات المرتبطة باستخدام الأحرف بدلًا من النص المُقسَّم إلى رموز (Tokens) كمدخل لنموذج التعلم العميق قد تطور بشكل كبير. فقد أُزيلت نماذج جديدة تُعرف بنماذج خالية من الرموز (Token-free) الخطوة التقليدية لتقسيم النص إلى رموز؛ ومع ذلك، لا تزال كفاءة هذه النماذج غير واضحة. علاوة على ذلك، يُعد تأثير التقسيم إلى رموز موضوعًا نادرًا الاستكشاف في مهام التسمية التسلسلية. ولذلك، نُجري دراسة لتحليل تأثير التقسيم إلى رموز عند استخراج المعلومات من المستندات، ونقدم دراسة مقارنة وتحليلًا للنماذج القائمة على الوحدات الفرعية (Subword) والنمذجة القائمة على الأحرف. وبشكل خاص، ندرس استخراج المعلومات (IE) من النصوص الطبية الحيوية. وتكمن النتيجة الرئيسية في تحليلين: أولًا، يمكن أن تُدخل أنماط التقسيم إلى رموز انحيازًا استنتاجيًا (Inductive Bias) يؤدي إلى أداء يُعد من أفضل الأداء المُحقَّق حاليًا، وثانيًا، تُظهر النماذج القائمة على الأحرف نتائج واعدة؛ وبالتالي، فإن الانتقال إلى نماذج استخراج معلومات خالية من الرموز (Token-free IE) أمر ممكن فعليًا.