HyperAIHyperAI
منذ 2 أشهر

تعلم التمثيلات الموزعة للجمل من البيانات غير المصنفة

Felix Hill; Kyunghyun Cho; Anna Korhonen
تعلم التمثيلات الموزعة للجمل من البيانات غير المصنفة
الملخص

الطرق غير المراقبة لتعلم التمثيلات الموزعة للكلمات شائعة في أبحاث معالجة اللغة الطبيعية اليوم، ولكن هناك معرفة أقل بكثير حول أفضل الطرق لتعلم تمثيلات الجمل أو العبارات الموزعة من البيانات غير المصنفة. يقدم هذا البحث مقارنة منهجية للنماذج التي تتعلم مثل هذه التمثيلات. وقد وجدنا أن النهج الأمثل يعتمد بشكل حاسم على التطبيق المقصود. تعتبر النماذج الأعمق والأكثر تعقيدًا هي الأفضل للتمثيلات المستخدمة في الأنظمة المراقبة، بينما تعمل النماذج الخطية اللوغاريتمية الضحلة بشكل أفضل لبناء فضاءات تمثيل يمكن فك شفرتها باستخدام مقاييس المسافة الفضائية البسيطة. كما نقترح هدفين جديدين لتعلم التمثيلات غير المراقبة مصممين لتحسين التوازن بين وقت التدريب، قابلية نقل المجال وأداء النظام.