تعلم بنية الكلمات الداخلية بشكل أفضل للتصنيف التتابعي

أثبتت النماذج العصبية القائمة على الحروف فعاليتها بشكل كبير في العديد من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، هناك فجوة في التعقيد بين الطرق المستخدمة لتعلم تمثيلات الجمل والكلمات. بينما تكون معظم نماذج الحروف المستخدمة لتعلم تمثيلات الجمل عميقة ومعقدة، فإن النماذج المستخدمة لتعلم تمثيلات الكلمات تكون سطحية وبسيطة. بالإضافة إلى ذلك، رغم وجود بحوث متعددة حول تعلم تضمينات الحروف، لا يزال غير واضح أي نوع من الهندسة المعمارية هو الأفضل لتقديم تمثيلات من الحرف إلى الكلمة.لمعالجة هذه الأسئلة، نقوم أولاً بفحص الفجوات بين الطرق المستخدمة لتعلم تمثيلات الكلمات والجمل. نجري تجارب مفصلة ومقارنات لنماذج التفاف مختلفة رائدة، وندرس أيضًا المزايا والعيوب التي تنطوي عليها عناصرها. علاوة على ذلك، نقترح IntNet (شبكة داخلية)، وهي هندسة عصبية تفافية ذات شكل أنبوبي واسع بدون تصغير للحجم لتعلم تمثيلات البنية الداخلية للكلمات من خلال تركيب حروفها من مجموعات بيانات تدريب محدودة ومراقبة.نقيم النموذج المقترح على ستة مجموعات بيانات للتسمية التسلسلية، بما في ذلك التعرف على الكيانات المسماة (NER) وتصنيف الأجزاء اللغوية (POS tagging) وتقطيع الجمل بنحويًا (syntactic chunking). يظهر تحليلنا العميق أن IntNet يتفوق بشكل كبير على نماذج تضمين الحروف الأخرى ويحقق أداءً جديدًا رائدًا دون الاعتماد على أي معرفة أو موارد خارجية.