التمثيلات الميتا الهرمية للتعرف على الكيانات المحددة في التبديل بين اللغات

في الدول التي تتحدث لغات رئيسية متعددة، يُعرف المزج بين لغات مختلفة داخل محادثة ما بـ"تعدد الأكواد" (code-switching). ركزت الدراسات السابقة التي تناولت هذا التحدي بشكل رئيسي على الجوانب على مستوى الكلمة، مثل تمثيلات الكلمات (word embeddings). ومع ذلك، في العديد من الحالات، تتقاسم اللغات وحدات فرعية مشتركة، خصوصًا بين اللغات المرتبطة ببعضها، بل وحتى بين اللغات التي تبدو غير مرتبطة. لذلك، نقترح نموذجًا يُسمى "تمثيلات ميتا الهرمية" (Hierarchical Meta-Embeddings - HME)، والذي يتعلم دمج تمثيلات متعددة على مستوى الكلمة وعلى مستوى الوحدات الفرعية (subword-level) لكل لغة منفصلة، بهدف إنشاء تمثيلات لغوية غير مرتبطة بدولة معينة (language-agnostic lexical representations). على مهمة التعرف على الكيانات الاسمية (Named Entity Recognition) في بيانات تعدد الأكواد بين الإنجليزية والإسبانية، حقق نموذجنا أداءً متفوقًا على مستوى التقنيات الحالية في البيئات متعددة اللغات. كما نُظهر أن النموذج، في السياقات العابرة للغات، لا يُستفيد فقط من اللغات المرتبطة ببعضها، بل يتعلم أيضًا من اللغات ذات الأصول المختلفة. وأخيرًا، نُثبت أن دمج وحدات فرعية مختلفة يُعد أمرًا حاسمًا لفهم الكيانات التي تظهر في سياقات تعدد الأكواد.