HyperAIHyperAI
منذ 12 أيام

كامل: تحليل المعرفة مع الكيانات متعددة الرموز في نماذج اللغة

{Leandra Fichtel, Jan-Christoph Kalo}
كامل: تحليل المعرفة مع الكيانات متعددة الرموز في نماذج اللغة
الملخص

أظهرت النماذج اللغوية الكبيرة (LMs) قدرتها على استيعاب كم كبير من المعرفة العلاقاتية من مجموعة التدريب المسبقة. ويمكن التحقيق في هذه المعرفة الواقعية من خلال استخدام نماذج ملء الفراغ (cloze-style prompts)، كما تم توضيح ذلك في معيار LAMA. ومع ذلك، أظهرت دراسات حديثة أن النتائج تؤدي جيدًا فقط لأن النماذج قادرة على إجراء تخمينات مدروسة أو استرجاع حقائق من بيانات التدريب. نقدّم مجموعة بيانات معيارية جديدة تعتمد على ويكي داتا، تُسمى KAMEL، لاختبار المعرفة العلاقاتية في النماذج اللغوية الكبيرة. على عكس المجموعات السابقة، تغطي KAMEL طيفًا أوسع من المعرفة، وتستكشف الكيانات المكونة من رمز واحد أو أكثر من رموز، وتحتوي على حقائق ذات قيم حرفية. علاوة على ذلك، فإن إجراء التقييم أكثر دقة، نظرًا لاحتواء المجموعة على عناوين بديلة للكيانات، وتعامل مع العلاقات ذات القدرة العالية على التكرار. بدلًا من إجراء التقييم على نماذج لغوية مُقنّعة (masked language models)، نقدّم نتائج لعدة نماذج لغوية ع因果ية حديثة في بيئة قليلة الأمثلة (few-shot setting). ونُظهر أن النماذج الجديدة تؤدي بشكل جيد جدًا على LAMA، حيث تحقق معدل F1 مُبشّرًا قدره 52.90%، بينما تحقق فقط 17.62% على KAMEL. وتشير تحليلاتنا إلى أن النماذج اللغوية الكبيرة لا تزال بعيدة جدًا عن القدرة على حفظ جميع أشكال المعرفة العلاقاتية التي تُخزَّن عادةً في رُسُوم المعرفة (knowledge graphs).

كامل: تحليل المعرفة مع الكيانات متعددة الرموز في نماذج اللغة | أحدث الأوراق البحثية | HyperAI