HyperAIHyperAI
منذ 2 أشهر

استخدام البيانات الأحادية اللغة لتمثيل الكلمات التركيبية عبر اللغات

Hubert Soyer; Pontus Stenetorp; Akiko Aizawa
استخدام البيانات الأحادية اللغة لتمثيل الكلمات التركيبية عبر اللغات
الملخص

في هذا البحث، نقدم هندسة معمارية جديدة تعتمد على الشبكات العصبية لإنتاج تمثيلات كلمات تركيبية بين اللغات. بخلاف الأساليب المقترحة سابقًا، تحقق طريقتنا المعايير الثلاثة التالية: تقييد التمثيلات على مستوى الكلمات لتكون تركيبية، القدرة على الاستفادة من البيانات الثنائية اللغة والبيانات الأحادية اللغة، وقابلية التوسع إلى مجموعات كبيرة من الكلمات وكميات كبيرة من البيانات. المكون الرئيسي لنهجنا هو ما نطلق عليه معيار الإدماج الأحادي اللغة (monolingual inclusion criterion)، الذي يستفيد من الملاحظة أن الجمل تكون مرتبطة معانيًا بشكل أوثق بجزءها الفرعي منها بالجمل الأخرى التي يتم اختيارها عشوائيًا. قمنا بتقييم طريقتنا على مهمة تصنيف الوثائق بين اللغات المعروفة جيدًا وحققت نتائج إما مكافئة أو تتفوق بشكل كبير على الأساليب السابقة الأكثر تقدمًا. وبشكل ملموس، بلغت دقة طريقتنا 92.7% و84.4% لكل من المهمتين الفرعيتين من الإنجليزية إلى الألمانية ومن الألمانية إلى الإنجليزية على التوالي. الأولى تقدمت بمقدار 0.9 نقطة في الدقة عن الحالة السابقة الأكثر تقدمًا، أما الثانية فحققت تحسنًا مطلقًا بنسبة 7.7 نقطة في الدقة وتقليلًا للخطأ بنسبة 33.0%.

استخدام البيانات الأحادية اللغة لتمثيل الكلمات التركيبية عبر اللغات | أحدث الأوراق البحثية | HyperAI