البيئة المعرفية لـ BERT لفهم اللغة

أحدث الأبحاث المتعلقة بتمثيلات اللغة تقوم بدمج ميزات سياقية مُعدّلة بشكل دقيق في تدريب النماذج اللغوية، مما يُمكّن من تحقيق سلسلة من النجاحات خاصة في مهام فهم القراءة الآلية والاستنتاج اللغوي الطبيعي. ومع ذلك، فإن النماذج الحالية لتمثيل اللغة، بما في ذلك ELMo وGPT وBERT، تستفيد فقط من ميزات سياقية بسيطة مثل تمثيلات الأحرف أو الكلمات. ونادرًا ما تأخذ بعين الاعتبار دمج معلومات معجمية منظمة يمكنها توفير دلالات غنية لتمثيل اللغة. ولتعزيز فهم اللغة الطبيعية، نقترح دمج دلالات سياقية صريحة مستمدة من تصنيف الأدوار المعجمية المُدرّب مسبقًا، ونقدّم نموذجًا مُحسّنًا لتمثيل اللغة يُسمى Semantics-aware BERT (SemBERT)، الذي يمتلك القدرة على امتصاص دلالات سياقية صريحة عبر هيكل BERT الأساسي. يحافظ SemBERT على سهولة الاستخدام المميزة لنموذج BERT الأصلي من خلال طريقة تخصيص خفيفة دون الحاجة إلى تعديلات كبيرة مخصصة للمهام. مقارنةً بـ BERT، فإن SemBERT بسيط من حيث المفهوم ولكنه أكثر قوة. وقد حقق أداءً أفضل من المستوى الحالي أو تحسينًا كبيرًا في عشرة مهام تتعلق بفهم القراءة والاستنتاج اللغوي.