2달 전

CCNet: 크로스-크로스 어텐션을 활용한 의미 분할

Zilong Huang; Xinggang Wang; Yunchao Wei; Lichao Huang; Humphrey Shi; Wenyu Liu; Thomas S. Huang
CCNet: 크로스-크로스 어텐션을 활용한 의미 분할
초록

시각적 이해 문제에서 문맥 정보는 매우 중요합니다. 예를 들어, 의미 분할과 객체 검출 같은 작업에서는 문맥 정보가 핵심적인 역할을 합니다. 본 연구에서는 전체 이미지의 문맥 정보를 매우 효과적이고 효율적으로 획득하기 위한 크리스-크로스 네트워크(Criss-Cross Network, CCNet)를 제안합니다. 구체적으로, 각 픽셀에 대해 새로운 크리스-크로스 어텐션 모듈이 해당 픽셀의 크리스-크로스 경로 상에 있는 모든 픽셀들의 문맥 정보를 수집합니다. 이를 반복적으로 수행함으로써, 각 픽셀은 결국 전체 이미지의 종속성을 포착할 수 있습니다. 또한, 카테고리 일관성 손실(category consistent loss)을 제안하여 크리스-크로스 어텐션 모듈이 더 구별력 있는 특징을 생성하도록 강제합니다.전반적으로 CCNet은 다음과 같은 장점들을 가지고 있습니다:1) GPU 메모리 효율성: 비국소 블록(non-local block)과 비교하여 제안된 반복 크리스-크로스 어텐션 모듈은 GPU 메모리 사용량을 11배 줄일 수 있습니다.2) 높은 계산 효율성: 반복 크리스-크로스 어텐션은 비국소 블록의 FLOPs(Floating Point Operations per Second)를 약 85% 감소시킵니다.3) 최신 기술 수준의 성능: 시멘틱 세그멘테이션 벤치마크인 Cityscapes, ADE20K, 인간 파싱 벤치마크 LIP, 인스턴스 세그멘테이션 벤치마크 COCO, 비디오 세그멘테이션 벤치마크 CamVid에서 광범위한 실험을 수행했습니다. 특히, 우리의 CCNet은 Cityscapes 테스트 세트에서 81.9%, ADE20K 검증 세트에서 45.76%, LIP 검증 세트에서 55.47%의 mIoU(mean Intersection over Union) 점수를 달성하였으며, 이는 새로운 최신 기술 수준 결과입니다.본 논문의 소스 코드는 \url{https://github.com/speedinghzl/CCNet}에서 확인할 수 있습니다.

CCNet: 크로스-크로스 어텐션을 활용한 의미 분할 | 최신 연구 논문 | HyperAI초신경