17일 전

이중 관계 인지 주의망을 이용한 장면 세그멘테이션

{Hanqing Lu, Yongjun Bao, Jie Jiang, Jing Liu, Yong Li, Jun Fu}
초록

본 논문에서는 장면 분할(semantic segmentation) 작업을 수행하기 위해 이중 관계 인지 주의망(Dual Relation-aware Attention Network, DRANet)을 제안한다. 픽셀 단위의 인식에서 효율적으로 맥락 정보를 활용하는 것은 매우 중요하다. 이를 해결하기 위해 관계 인지 주의 메커니즘을 기반으로 적응적으로 맥락 정보를 캡처한다. 특히, 확장된 완전 컨볼루션 네트워크(dilated fully convolutional network, FCN)의 위쪽에 공간 차원과 채널 차원에서 각각 맥락적 종속성을 모델링하는 두 가지 유형의 주의 모듈을 추가하였다. 주의 모듈 내에서는 자기 주의(self-attention) 메커니즘을 도입하여 임의의 두 픽셀 또는 채널 간의 의미적 연관성을 모델링한다. 각 픽셀 또는 채널은 서로 간의 상관관계에 따라 모든 픽셀 또는 채널로부터 적응적으로 맥락 정보를 집계할 수 있다. 그러나 위에서 언급한 쌍별 상관관계 계산으로 인해 발생하는 높은 계산 및 메모리 비용을 줄이기 위해, 두 가지 유형의 컴팩트한 주의 모듈을 추가로 설계하였다. 컴팩트한 주의 모듈에서는 각 픽셀 또는 채널이 몇몇의 집계 중심(center)과만 상관관계를 형성하고, 해당 중심들에 대해 대응되는 맥락 집계를 수행한다. 한편, 네트워크 성능 향상을 위해 계층 간 교차 게이팅 디코더(cross-level gating decoder)를 도입하여 공간 세부 정보를 선택적으로 강화한다. 제안한 네트워크의 효과를 검증하기 위해 광범위한 실험을 수행하였으며, Cityscapes, ADE20K, PASCAL Context, COCO Stuff 등 네 가지 도전적인 장면 분할 데이터셋에서 새로운 최고 성능(SOTA)을 달성하였다. 특히, 추가적인 대규모 레이블링 데이터 없이도 Cityscapes 테스트 세트에서 평균 IoU(mean IoU) 점수 82.9%를 달성하였다.

이중 관계 인지 주의망을 이용한 장면 세그멘테이션 | 최신 연구 논문 | HyperAI초신경