ANTILLES: مجموعة بيانات فرنسية مفتوحة غنية لغويًا لتصنيف الجُملة حسب نوع الكلمة

تمييز الفئة النحوية (POS tagging) هو مهمة تقليدية في معالجة اللغة الطبيعية (NLP). وعلى الرغم من الاقتراحات الكثيرة لأدوات وقواعد بيانات مخصصة، خصوصًا للغات الأكثر انتشارًا، إلا أن هذه الأدوات تواجه قيودًا تتعلق بترخيص الاستخدام، أو حجم مجموعة التصنيفات (tagset)، أو حتى الأساليب التي لم تعد تُعدّ من أحدث التطورات في المجال. في هذه المقالة، نقترح "ANTILLES"، وهو نسخة موسعة من قاعدة بيانات فرنسية موجودة مسبقًا (UD French-GSD)، تضم مجموعة أصيلة من التصنيفات المستمدة بمساعدة الخصائص الأشكالية (مثل الجنس، والعدد، والزمن، إلخ). وتمّ توسيع هذه النسخة لتضم مجموعة من 65 تصنيفًا، مقابل 16 تصنيفًا في النسخة الأصلية. كما قمنا بتنفيذ عدة أدوات لتمييز الفئة النحوية للغة الفرنسية باستخدام هذه القاعدة، مع دمج أحدث التطورات في هذا المجال. وتُعدّ قاعدة البيانات والأدوات المستخدمة في التصنيف النحوي مفتوحة بالكامل ومتاحة مجانًا.