HyperAIHyperAI
منذ 16 أيام

أداء ميزات أقل بشكل جيد في مهمة تحديد اللغة الأصلية

{{\c{C}}a{\u{g}}r{\i} {\c{C}}{\o}ltekin, Taraka Rama}
أداء ميزات أقل بشكل جيد في مهمة تحديد اللغة الأصلية
الملخص

يصف هذا البحث نتائجنا في مسابقة NLI المشتركة لعام 2017. شاركنا في مسارات المقالات، والمحادثات الصوتية، ومهام الدمج التي تعتمد على النص والصوت ومتغيرات i-vectors لتحديد اللغة الأم للإدخال المعطى. في مسار المقالات، حقق النظام الخطي القائم على دالة الدعم الناقل (SVM) باستخدام زوجيات الكلمات (word bigrams) والترابطات الحرفية من الرتبة السابعة (character 7-grams) أفضل الأداء. أما في مسار الصوت، فقد أظهر تصنيف LDA المستند فقط إلى متغيرات i-vectors أداءً أفضل من النظام المدمج الذي يستخدم ميزات نصية مستمدة من نصوص تحويل الكلام إلى نص إلى جانب متغيرات i-vectors. وفي مهمة الدمج، جربنا أنظمة تعتمد على دمج متغيرات i-vectors مع ميزات زوجيات من الرتبة العليا (n-grams من رتبة أعلى)، ودمج متغيرات i-vectors مع ميزات وحدات الكلمات (word unigrams)، ونظام تجميع احتمالي متوسط، ونظام تجميع متداخل (stacked ensemble). وخلصنا إلى أن مزيج وحدات الكلمات (word unigrams) مع متغيرات i-vectors يحقق درجات أعلى مقارنة بأنظمة التدريب التي تعتمد على عدد أكبر من ميزات $n$-grams. وبلغ أفضل أنظمة أداءً لدينا درجات F1 قدرها 87.16% و83.33% و91.75% في مسارات المقالات، والمحادثات الصوتية، ومهام الدمج على التوالي.

أداء ميزات أقل بشكل جيد في مهمة تحديد اللغة الأصلية | أحدث الأوراق البحثية | HyperAI