HyperAIHyperAI
منذ 17 أيام

FiE: بناء فضاء احتمالي عالمي من خلال الاستفادة من الدمج المبكر في المُشفِّر للإجابة على الأسئلة في النطاق المفتوح

Akhil Kedia, Mohd Abbas Zaidi, Haejun Lee
FiE: بناء فضاء احتمالي عالمي من خلال الاستفادة من الدمج المبكر في المُشفِّر للإجابة على الأسئلة في النطاق المفتوح
الملخص

بدأت النماذج التوليدية مؤخرًا في التفوق على النماذج الاستخراجية في إجابة الأسئلة في المجال المفتوح، وذلك إلى حد كبير من خلال الاستفادة من مشغلها (decoder) للانتباه إلى عدة فقرات مشفرة ودمج المعلومات المستخلصة منها. ومع ذلك، تميل النماذج التوليدية إلى أن تكون أكبر حجمًا من النماذج الاستخراجية بسبب الحاجة إلى وجود مشغل، كما أنها تعمل ببطء أثناء الاستدلال نظرًا لاستخدامها لخوارزمية البحث المُتسلسل (auto-regressive decoder beam search)، كما أن الناتج المُولَّد غالبًا ما يعاني من مشكلة التخيلات (hallucinations). نقترح توسيع نماذج التحويل (Transformer encoders) بقدرتها على دمج المعلومات من عدة فقرات، باستخدام تمثيل عالمي (global representation) لتوفير انتباه متبادل بين جميع الرموز (tokens) عبر العينات المختلفة. علاوة على ذلك، نقترح حسابًا بديلًا لاحتمال فاصل الإجابة (answer span probability) بهدف تحسين عملية تجميع نقاط الإجابة في الفضاء العالمي لجميع العينات. وباستخدام الطريقة المقترحة، تفوقت على أحدث النماذج المُصنفة كأفضل نموذج حاليًا بـ 2.5 نقطة في مقياس "التماثل الدقيق" (Exact Match) على مجموعة بيانات Natural Questions، مع استخدام فقط 25% من عدد المعلمات و35% من زمن التأخير (latency) أثناء الاستدلال، كما تفوقت بـ 4.4 نقطة على مجموعة بيانات WebQuestions. وعند دمجها مع تكبير البيانات الاصطناعية (synthetic data augmentation)، تفوقت أيضًا على النماذج الأكبر حجمًا على مجموعة بيانات TriviaQA. تجعل هذه الميزة في التوفير من حيث زمن التأخير وعدد المعلمات من طريقة العمل المقترحة مثيرة جدًا للاهتمام في مجال إجابة الأسئلة في المجال المفتوح، خاصة أن هذه النماذج غالبًا ما تكون مكثفة من حيث الحوسبة.