CAR: 의미 분할을 위한 계층 인식 정규화

최근의 세그멘테이션 방법 중 OCR 및 CPNet과 같은 기법들은 픽셀 특징 외에도 '클래스 레벨' 정보를 활용하여 기존 네트워크 모듈의 정확도를 향상시키는 데 큰 성공을 거두었다. 그러나 이러한 방법들은 추출된 클래스 레벨 정보를 단순히 픽셀 특징과 연결하는 방식으로만 사용하며, 보다 우수한 픽셀 표현 학습을 위해 명시적으로 활용하지는 않았다. 또한 이러한 접근 방식들은 대체로 거친 마스크 예측 기반으로 소프트 클래스 중심을 학습하기 때문에 오류 누적에 취약하다. 본 논문에서는 클래스 레벨 정보를 더욱 효과적으로 활용하기 위해, 인간이 다른 객체와 함께 등장하더라도 객체 자체를 인식할 수 있다는 사실에 착안하여, 특징 학습 과정에서 클래스 내 분산을 최소화하고 클래스 간 거리를 최대화하는 보편적인 클래스 인식 정규화(Class-Aware Regularization, CAR) 기법을 제안한다. 이를 위해 세 가지 새로운 손실 함수를 제안한다. 첫 번째 손실 함수는 각 클래스 내에서 더 강한 클래스 표현을 유도하며, 두 번째 손실 함수는 서로 다른 클래스 중심 간의 거리를 직접 최대화하고, 세 번째 손실 함수는 클래스 중심과 픽셀 간의 거리를 추가로 확대한다. 더불어, 본 연구에서 사용하는 클래스 중심은 오류가 발생하기 쉬운 거친 예측이 아닌, 정답 레이블(ground truth)로부터 직접 생성된다. 제안한 방법은 기존의 대부분의 세그멘테이션 모델(OCR, CPNet 등)에 학습 단계에서 간편하게 적용 가능하며, 추론 시 추가 오버헤드 없이 정확도를 크게 향상시킬 수 있다. 여러 기준 데이터셋에서 수행된 광범위한 실험 및 아블레이션 연구 결과, 제안된 CAR은 모든 기준 모델의 정확도를 최대 2.23%의 mIOU 향상으로 끌어올리며, 뛰어난 일반화 능력을 보였다. 전체 코드는 https://github.com/edwardyehuang/CAR 에 공개되어 있다.