Attend and Guide (AG-Net): 키포인트 기반 주의 기반 딥 네트워크를 통한 이미지 인식

이 논문은 정적 이미지에서 시각 인식을 위한 새로운 키포인트 기반 주의 메커니즘을 제안한다. 특징적인 클래스를 인식하기 위한 깊은 합성곱 신경망(Convolutional Neural Networks, CNN)은 높은 성능을 보여주고 있으나, 미세한 변화를 구분하는 데 있어서는 여전히 한계가 있다. 본 연구는 이러한 문제를 해결하기 위해, 미세한 변화를 의미 있는 특징으로 연결하는 데 효과적인 새로운 주의 메커니즘을 활용한 엔드 투 엔드 CNN 모델을 제안한다. 이 모델은 이미지 내의 의미적 영역(Semantic Regions, SRs)과 그 공간적 분포를 식별함으로써 이미지의 공간 구조를 포착하며, 이는 이미지 내 미세한 변화를 모델링하는 핵심 요소임이 입증되었다. 제안된 방법은 주어진 이미지에서 탐지된 키포인트들을 군집화함으로써 이러한 SRs를 자동으로 식별한다. 각 SR이 이미지 인식에 얼마나 유용한지 여부는, 특정 작업에 가장 관련성이 높은 이미지 부분에 초점을 맞춘 혁신적인 주의 메커니즘을 통해 평가된다. 제안된 프레임워크는 전통적인 이미지 인식과 미세한 분류 이미지 인식 모두에 적용 가능하며, 학습 및 예측 과정에서 수동으로 레이블링된 영역(예: 신체 부위, 객체의 경계 상자 등)을 필요로 하지 않는다. 또한, 제안된 키포인트 기반 주의 메커니즘은 기존의 CNN 모델에 쉽게 통합할 수 있다. 본 프레임워크는 여섯 가지 다양한 벤치마크 데이터셋에서 평가되었으며, Distracted Driver V1(정확도: 3.39%), Distracted Driver V2(정확도: 6.58%), Stanford-40 Actions(mAP: 2.15%), People Playing Musical Instruments(mAP: 16.05%), Food-101(정확도: 6.30%), Caltech-256(정확도: 2.59%) 데이터셋에서 최신 기술 대비 상당한 성능 향상을 보였다.