미세한 시각적 분류(Fine-grained visual categorization, FGVC)는 서로 다른 하위 범주에 속한 객체를 자동으로 인식하는 것을 목표로 한다. 학계와 산업계 모두에서 큰 관심을 받고 있음에도 불구하고, 다양한 클래스 간 미세한 시각적 차이로 인해 여전히 도전적인 과제로 남아 있다. 최근에는 구분 가능한 클래스 특수 특징을 추출함으로써 FGVC 성능을 향상시키기 위해 계층 간 특징 집약과 이미지 간 쌍별 학습이 주목받고 있다. 그러나 기존의 단순한 집약 전략에 기반한 계층 간 정보를 효율적으로 활용하지 못하는 한계가 있으며, 기존의 쌍별 학습 방법 역시 서로 다른 이미지 간 장거리 상호작용을 탐색하지 못하고 있다. 이러한 문제를 해결하기 위해 본 연구에서는 이중 수준의 정렬을 포함하는 새로운 Alignment Enhancement Network(AENet)을 제안한다. 제안된 AENet는 계층 간 정렬(Cross-layer Alignment, CLA)과 이미지 간 정렬(Cross-image Alignment, CIA)의 두 가지 정렬 모듈로 구성된다. CLA 모듈은 저수준의 공간 정보와 고수준의 의미 정보 간의 계층 간 관계를 활용하여, 계층 간 특징 집약을 촉진함으로써 입력 이미지의 특징 표현 능력을 향상시킨다. 또한 새로운 CIA 모듈은 전체 공간 영역에 걸쳐 관련 정보를 강화하고 비관련 정보를 억제하는 정렬된 특징 맵을 생성한다. 본 연구는 동일한 범주에 속하는 입력이 CIA의 입력으로서 정렬된 특징 맵에 더 가까워져야 한다는 기본 가정을 바탕으로, 각 CIA 블록 내에서의 특징 정렬을 감독하기 위해 의미 유사도 손실(Semantic Affinity Loss)을 제안한다. 네 개의 도전적인 데이터셋에서 수행된 실험 결과를 통해 제안된 AENet가 기존 기법들에 비해 최고의 성능을 달성함을 입증하였다.