HyperAIHyperAI
منذ 2 أشهر

التصنيع العميق التبايني للترميز الدلالي لمستندات النص

Suthee Chaidaroon; Yi Fang
التصنيع العميق التبايني للترميز الدلالي لمستندات النص
الملخص

مع زيادة كمية البيانات النصية بسرعة خلال العقد الماضي، أصبحت طرق البحث عن التشابه الفعالة مكونًا حاسمًا لأنظمة استرجاع المعلومات على نطاق واسع. إحدى الاستراتيجيات الشائعة هي تمثيل عينات البيانات الأصلية برموز ثنائية مضغوطة من خلال التجزئة (hashing). تم استخدام مجموعة من طرق التعلم الآلي، ولكنها غالبًا ما تفتقر إلى التعبير والمرونة في النمذجة لتعلم التمثيلات الفعالة. لقد أثبتت التطورات الحديثة للتعلم العميق في مجموعة واسعة من التطبيقات قدرتها على تعلم تمثيلات سمات قوية ومتطورة للبيانات المعقدة. بشكل خاص، تجمع نماذج التوليد العميقة بشكل طبيعي بين تعبير نماذج التوليد الاحتمالية والقدرة العالية للشبكات العصبية العميقة، مما يجعلها مناسبة جدًا لنمذجة النصوص. ومع ذلك، فإن القليل من الأعمال قد استفاد من التقدم الحديث في مجال التعلم العميق للتجزئة النصية.في هذه الورقة البحثية، نقترح سلسلةً من نماذج الجيل الوثائقية العميقة الجديدة للتجزئة النصية. يُعد أول النماذج المقترحة غير مشرف عليه بينما يتم الإشراف على الثاني باستخدام علامات/وسوم الوثائق للتجزئة. أما النموذج الثالث فيأخذ بعين الاعتبار عوامل خاصة بالوثيقة تؤثر على توليد الكلمات. توفر الصياغة الجيل الاحتمالي للنماذج المقترحة إطارًا مبدئيًا مدروسًا لتوسيع النموذج وتقييم عدم اليقين والمحاكاة والتفسير. بناءً على الاستدلال المتغير وإعادة المعلمة (reparameterization)، يمكن فهم النماذج المقترحة كشبكات عصبية عميقة مشفرة-محللة (encoder-decoder) وبالتالي فهي قادرة على تعلم تمثيلات متوزعة غير خطية معقدة للوثائق الأصلية. نقوم بإجراء مجموعة شاملة من التجارب على أربع بيئات اختبار عامة. لقد أظهرت نتائج التجارب فعالية النماذج التعليمية المشرف عليها المقترحة للتجزئة النصية.

التصنيع العميق التبايني للترميز الدلالي لمستندات النص | أحدث الأوراق البحثية | HyperAI