WiC: مجموعة الكلمات في السياق لتقدير تمثيلات المعنى الحساسة للسياق

بشكل مصمم، لا يمكن للتمثيلات اللفظية (word embeddings) أن تُمثل الطبيعة الديناميكية لمعنى الكلمات، أي خاصية الكلمات في الإشارة إلى معاني محتملة مختلفة. لمعالجة هذا القصور، تم اقتراح العديد من التقنيات المتخصصة في التمثيل المعجمي مثل التمثيلات الدلالية أو السياقية (sense or contextualized embeddings). ومع ذلك، على الرغم من شعبية الأبحاث حول هذا الموضوع، فإن هناك قلة قليلة من مقاييس التقييم التي تركز بشكل خاص على الدلالة الديناميكية للكلمات. في هذه الورقة البحثية، نوضح أن النماذج الحالية قد تجاوزت سقف الأداء لمجموعة البيانات القياسية المستخدمة لهذا الغرض، وهي مجموعة بيانات الشبه بين الكلمات السياقية في جامعة ستانفورد (Stanford Contextual Word Similarity)، ونسلط الضوء على عيوبها. لمعالجة نقص وجود مقاييس مناسبة، نقدم مجموعة بيانات كبيرة الحجم تسمى "الكلمة في السياق" (WiC) تعتمد على التعليقات المراجعة من قبل الخبراء، لتقييم عام للتمثيلات الحساسة للسياق. تم إطلاق WiC في https://pilehvar.github.io/wic/.