HyperAIHyperAI
منذ 2 أشهر

استخدام مقاييس التشابه لاختيار بيانات التدريب الأولي لـ NER

Xiang Dai; Sarvnaz Karimi; Ben Hachey; Cecile Paris
استخدام مقاييس التشابه لاختيار بيانات التدريب الأولي لـ NER
الملخص

يمكن أن تحسّن متجهات الكلمات ونماذج اللغة (LMs) المدربة مسبقًا على كميات كبيرة من البيانات غير المصنفة بشكل كبير من مهام معالجة اللغة الطبيعية (NLP) المختلفة. ومع ذلك، فإن قياس وتقييم التشابه بين بيانات التدريب المسبق والبيانات المستهدفة يترك للحدس. نقترح ثلاثة مقاييس فعالة من حيث التكلفة لتقدير جوانب مختلفة من التشابه بين بيانات التدريب المسبق والبيانات المستهدفة. نوضح أن هذه المقاييس هي مؤشرات جيدة لفائدة النماذج المدربة مسبقًا في تحديد الكيانات المسماة (NER) عبر 30 زوجًا من البيانات. كما تشير النتائج إلى أن نماذج اللغة المدربة مسبقًا أكثر فعالية وتوقعًا من متجهات الكلمات المدربة مسبقًا، ولكن متجهات الكلمات المدربة مسبقًا تكون أفضل عندما تكون بيانات التدريب المسبق غير مشابهة.