HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

دراسة على تمثيلات N-gram وEmbedding لتحديد اللغة الأصلية

{Sowmya Vajjala Sagnik Banerjee}

دراسة على تمثيلات N-gram وEmbedding لتحديد اللغة الأصلية

الملخص

نُقدم في هذا التقرير نتائج تجاربنا باستخدام تمثيلات الميزات المستندة إلى N-gram وتمثيلات التضمين (Embeddings) لتحديد اللغة الأصلية (NLI) ضمن مهمة المشاركة المشتركة NLI 2017 (باسم الفريق: NLI-ISU). وقد حقق أفضل نظام لدينا على مجموعة الاختبار الخاصة بالنصوص المكتوبة F1 متعددة (macro F1) قدرها 0.8264، ويعتمد هذا النظام على ميزات الأحادية (unigram)، والثنائية (bigram)، والثلاثية (trigram) للكلمات. وقد استكشفنا تمثيلات N-gram التي تشمل الكلمات، والأحرف، وتصنيفات الجمل (POS)، بالإضافة إلى تمثيلات مختلطة بين الكلمات وتصنيفات الجمل. أما بالنسبة لتمثيلات الميزات المستندة إلى التضمين، فقد استخدمنا كلًا من تضمينات الكلمات (word embeddings) وتمثيلات المستندات (document embeddings). وسجلنا أداءً متوسطًا نسبيًا في حال استخدام جميع تمثيلات التضمين مقارنةً بتمثيلات N-gram، وقد يُعزى ذلك إلى حقيقة أن التضمينات تُمثّل التشابه الدلالي، بينما تتمحور الفروقات بين اللغات الأم (L1) أكثر على الطابع الأسلوبي.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
native-language-identification-on-italki-nliNLI-ISU
Average F1: 0.5035

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
دراسة على تمثيلات N-gram وEmbedding لتحديد اللغة الأصلية | الأوراق البحثية | HyperAI