استخراج علامات الخطاب لتعلم تمثيل الجمل بدون إشراف

الأنظمة الحالية المتطورة في معالجة اللغة الطبيعية تعتمد بشكل كبير على مجموعات بيانات تم تسميتها يدويًا، والتي تكون باهظة الثمن لإنشائها. هناك قليل جدًا من الأعمال التي تستغل البيانات غير المسمى بشكل كافٍ -- مثل علامات الخطاب بين الجمل -- وذلك أساسًا بسبب ندرة البيانات وطرق الاستخراج غير الفعالة. في هذا العمل، نقترح طريقة لاكتشاف أزواج الجمل ذات العلامات الخطابية ذات الصلة بشكل آلي، ونطبقها على كميات ضخمة من البيانات. يتضمن مجموعتنا الناتجة 174 علامة خطابية مع وجود ما لا يقل عن 10 آلاف مثال لكل منها، حتى بالنسبة للعلامات النادرة مثل "بالصدفة" (coincidentally) أو "بشكل مدهش" (amazingly). نستخدم البيانات الناتجة كإشراف لتعلم تمثيلات الجمل القابلة للنقل. بالإضافة إلى ذلك، نوضح أن رغم حصول تعلم تمثيل الجمل من خلال التنبؤ بالعلامات الخطابية على نتائج متطورة في مختلف مهمات النقل، فإن الأمر ليس واضحًا بأن نماذجنا استخدمت العلاقة الدلالية بين الجمل، مما يترك مجالًا للتحسينات الإضافية. مجموعات بياناتنا متاحة للجمهور (https://github.com/synapse-developpement/Discovery)