
사람이 특정 이미지에 주의를 기울이고 처리하며 분류하는 방식은 딥러닝 모델의 성능을 크게 향상시킬 수 있는 잠재력을 지닌다. 인간이 주목하는 영역을 활용하면, 모델이 올바른 결정을 내리기 위한 핵심 특징에서 벗어나는 경우 이를 보정할 수 있다. 특히 세부 분류(fine-grained classification)와 같은 의사결정 과정에서 인간의 주의가 중요한 정보를 담고 있다는 것을 검증하기 위해, 인간의 주의와 모델의 해석을 비교하여 중요한 특징을 탐지하는 능력을 평가하였다. 이를 위해 CUB라는 세부 분류 데이터셋에 대한 인간의 시선 데이터를 수집하고, 이를 기반으로 CUB-GHA(Gaze-based Human Attention)라는 새로운 데이터셋을 구축하였다. 또한 인간의 시선 지식을 분류 모델에 통합하기 위해 시선 증강 학습(Gaze Augmentation Training, GAT)과 지식 융합 네트워크(Knowledge Fusion Network, KFN)를 제안하였다. 제안한 방법은 CUB-GHA와 최근 공개된 흉부 X선 영상 데이터셋 CXR-Eye(방사선의사의 시선 데이터를 포함)에 적용하였다. 실험 결과, 인간의 주의 정보를 통합함으로써 분류 성능이 효과적으로 향상됨을 확인하였으며, 특히 CXR 데이터셋에서 기준 모델 대비 4.38%의 성능 향상을 달성하였다. 본 연구는 세부 분류 과정에서 인간의 주의를 이해하는 데 있어 유의미한 통찰을 제공할 뿐만 아니라, 향후 인간의 시선 정보를 컴퓨터 비전 작업에 통합하는 연구에 기여할 수 있다. CUB-GHA 데이터셋과 코드는 https://github.com/yaorong0921/CUB-GHA 에서 공개되어 있다.