الانتباه البشري في التصنيف الدقيق

الطريقة التي يُركّز بها الإنسان على صورة معينة، ويعالجها، وينمّزها، تمتلك القدرة على تحسين أداء نماذج التعلم العميق بشكل كبير. ويمكن استغلال أماكن تركيز الإنسان لتصحيح النماذج عندما تبتعد عن السمات الأساسية الضرورية لاتخاذ قرارات صحيحة. وللتحقق من أن انتباه الإنسان يحتوي على معلومات قيّمة لعمليات اتخاذ القرار، مثل التصنيف الدقيق، قارنا بين انتباه الإنسان وشرح النماذج في اكتشاف السمات المهمة. من أجل هذا الهدف، جمعنا بيانات نظر الإنسان لبيانات تصنيف دقيقة من نوع CUB، وبنينا مجموعة بيانات تُسمى CUB-GHA (الانتباه البشري القائم على النظرة). علاوة على ذلك، اقترحنا طريقة تُسمى التدريب المعزز بالنظر (Gaze Augmentation Training - GAT) وشبكة دمج المعرفة (Knowledge Fusion Network - KFN) لدمج معرفة نظر الإنسان في نماذج التصنيف. نفذنا مقترحاتنا على مجموعة بيانات CUB-GHA، بالإضافة إلى مجموعة بيانات طبية حديثة الإطلاق تُسمى CXR-Eye التي تتضمن صور أشعة صدرية، مع بيانات نظر جُمعت من طبيب أشعة. أظهرت النتائج أن دمج معرفة انتباه الإنسان يُحدث تحسينًا فعّالًا في التصنيف، حيث زاد من أداء النموذج الأساسي بنسبة 4.38% على مجموعة CXR. وبالتالي، يقدّم عملنا رؤى قيمة لفهم انتباه الإنسان في التصنيف الدقيق، كما يسهم في الأبحاث المستقبلية المتعلقة بدمج نظر الإنسان مع مهام الرؤية الحاسوبية. تُتاح مجموعة بيانات CUB-GHA والكود المصدر على الرابط: https://github.com/yaorong0921/CUB-GHA.