لا تأخذ الطريق السهل: طرق قائمة على التجميع لتجنب التحيزات المعروفة في المجموعات البيانات

غالبًا ما تستخدم النماذج الحديثة أنماطًا سطحية في البيانات لا تُعدّ عامّة جدًا في البيئات الخارجة عن المجال أو البيئات المُتعمّدة (الخبيثة). على سبيل المثال، غالبًا ما تتعلم نماذج الاستخلاص النصي أن كلمات مفتاحية معينة تشير إلى الاستخلاص، بغض النظر عن السياق، وتتعلم نماذج الإجابة على الأسئلة البصرية التنبؤ بالإجابات النموذجية دون أخذ الأدلة الواردة في الصورة بعين الاعتبار. في هذا البحث، نُظهر أنه إذا كان لدينا معرفة مسبقة بهذه التحيّزات، فيمكننا تدريب نموذج ليكون أكثر مقاومةً لتغير المجال. يتكوّن منهجنا من مرحلتين: (1) نُدرّب نموذجًا بسيطًا يُقدّم تنبؤاته بالكامل بناءً على التحيّزات الموجودة في مجموعة البيانات، و(2) نُدرّب نموذجًا مقاومًا كجزء من تجميع (إنسيمبل) مع النموذج البسيط، بهدف تشجيعه على التركيز على أنماط أخرى في البيانات من المرجّح أن تكون أكثر قابلية للعامّة. أظهرت التجارب على خمس مجموعات بيانات تحتوي على مجموعات اختبار خارجة عن المجال تحسّنًا ملحوظًا في المقاومة في جميع الظروف، بما في ذلك ارتفاعًا قدره 12 نقطة في مجموعة بيانات الإجابة على الأسئلة البصرية التي تتغير فيها التوقعات المسبقة، وارتفاعًا قدره 9 نقاط في مجموعة اختبار للإجابة على أسئلة خبيثة.