17일 전

비전 이글 어텐션: 이미지 분류 기술을 발전시키는 새로운 시각

Mahmudul Hasan
비전 이글 어텐션: 이미지 분류 기술을 발전시키는 새로운 시각
초록

컴퓨터 비전 작업에서 이미지 내 관련 영역에 집중할 수 있는 능력은 모델 성능 향상에 매우 중요하며, 특히 핵심 특징이 작거나 미묘하거나 공간적으로 분산되어 있을 경우 더욱 그렇다. 기존의 합성곱 신경망(Convolutional Neural Networks, CNNs)은 이미지의 모든 영역을 동일하게 처리하기 때문에 특징 추출이 비효율적인 경우가 많다. 이 문제를 해결하기 위해, 저는 합성곱 기반 공간 주의 메커니즘을 활용하여 시각적 특징 추출을 강화하는 새로운 주의 메커니즘인 Vision Eagle Attention을 제안한다. 이 모델은 국소적인 공간적 특징을 포착하기 위해 합성곱 연산을 적용하고, 이미지에서 가장 정보가 풍부한 영역을 선택적으로 강조하는 주의 맵(attention map)을 생성한다. 이러한 주의 메커니즘은 모델이 판별력 있는 특징에 집중하면서 불필요한 배경 정보를 억제할 수 있도록 한다. 저는 이 주의 메커니즘을 경량화된 ResNet-18 아키텍처에 통합하여, 효율적이고 강력한 모델을 구성함을 실험적으로 입증하였다. 제안된 모델의 성능은 FashionMNIST, Intel Image Classification, OracleMNIST의 세 가지 널리 사용되는 벤치마크 데이터셋에서 평가되었으며, 주로 이미지 분류 작업에 초점을 맞췄다. 실험 결과, 제안하는 방법이 분류 정확도를 향상시킴을 확인할 수 있었다. 또한 이 방법은 객체 탐지, 세그멘테이션, 시각적 추적과 같은 다른 비전 작업으로 확장 가능하며, 다양한 시각 기반 응용 분야에 대해 계산 효율적인 솔루션을 제공할 수 있다. 코드는 아래 링크에서 확인할 수 있다: https://github.com/MahmudulHasan11085/Vision-Eagle-Attention.git

비전 이글 어텐션: 이미지 분류 기술을 발전시키는 새로운 시각 | 최신 연구 논문 | HyperAI초신경