HyperAIHyperAI
منذ 16 أيام

التكثيف الانتقائي للبيانات في السياق للكشف عن النية باستخدام المعلومات النقطية V

Yen-Ting Lin, Alexandros Papangelis, Seokhwan Kim, Sungjin Lee, Devamanyu Hazarika, Mahdi Namazifar, Di Jin, Yang Liu, Dilek Hakkani-Tur
التكثيف الانتقائي للبيانات في السياق للكشف عن النية باستخدام المعلومات النقطية V
الملخص

يركز هذا العمل على تكبير البيانات داخل السياق للكشف عن النية. وعندما لاحظنا أن تكبير البيانات عبر التحفيز داخل السياق للنماذج اللغوية الكبيرة المُدرَّبة مسبقًا (PLMs) وحدها لا يؤدي إلى تحسين الأداء، قمنا بطرح نهج جديد يعتمد على النماذج اللغوية الكبيرة والمعيار المعروف بـ "معلومة النقطة الواحدة" (PVI)، وهو مقياس يمكنه قياس مدى فائدة نقطة بيانات معينة في تدريب النموذج. يبدأ هذا النهج بتدريب نموذج PLM بدقة على عينة صغيرة من بيانات التدريب، ثم يُولِّد نقاط بيانات جديدة — أي عبارات تتوافق مع نيات معينة محددة. وبعد ذلك، يستخدم عملية تصفية واعية بناءً على معيار PVI لإزالة النقاط التي لا تُعد مفيدة للفاصل النية في المهمة التالية. وبهذا، يصبح من الممكن الاستفادة من القوة التعبيرية للنماذج اللغوية الكبيرة لإنتاج بيانات تدريب متنوعة. وتوصل النتائج التجريبية إلى أن هذا النهج يمكنه إنتاج بيانات تدريب اصطناعية تحقق أداءً متقدمًا على مستوى الحالة الراهنة (SOTA) في ثلاث مجموعات بيانات صعبة للكشف عن النية ضمن بيئات قليلة الأمثلة (تحقيق تحسن مطلق بنسبة 1.28% في الوضع 5-shot، و1.18% في الوضع 10-shot، بمتوسط عام)، كما يُظهر أداءً مُوازيًا لأفضل النماذج الحالية في الوضع الكامل للبيانات (ضمن 0.01% مطلق، بمتوسط عام).

التكثيف الانتقائي للبيانات في السياق للكشف عن النية باستخدام المعلومات النقطية V | أحدث الأوراق البحثية | HyperAI