Human Parsing을 위한 Macro-Micro 적대적 네트워크

인간 파싱에서 픽셀 단위 분류 손실은 저레벨 국소 불일치와 고레벨 의미론적 불일치라는 문제점을 가지고 있습니다. 적대 네트워크의 도입은 단일 판별기를 사용하여 이 두 가지 문제를 해결하려고 시도하였으나, 두 종류의 파싱 불일치는 서로 다른 메커니즘에 의해 발생하기 때문에 단일 판별기가 둘 다를 해결하는 것은 어렵습니다. 이러한 두 가지 불일치를 해결하기 위해 본 논문에서는 매크로-마이크로 적대 네트워크(Macro-Micro Adversarial Net, MMAN)를 제안합니다. MMAN은 두 개의 판별기를 갖습니다. 하나의 판별기인 매크로 D(Macro D)는 저해상도 라벨 맵에 작용하여 의미론적 불일치(예: 잘못 배치된 신체 부위)를 처벌합니다. 다른 판별기인 마이크로 D(Micro D)는 고해상도 라벨 맵의 여러 패치에 초점을 맞추어 국소 불일치(예: 흐림과 구멍)를 해결합니다. 전통적인 적대 네트워크와 비교할 때, MMAN은 국소 일관성과 의미론적 일관성을 명시적으로 강제하면서도 고해상도 이미지를 처리할 때 적대 네트워크가 겪는 수렴성 문제를 피할 수 있습니다. 실험을 통해 우리는 두 개의 판별기가 인간 파싱 정확도 향상에 상호 보완적인 역할을 함을 확인하였습니다. 제안된 프레임워크는 최신 방법들과 비교하여 경쟁력 있는 파싱 성능(mIoU=46.81% 및 59.91% 각각 LIP 및 PASCAL-Person-Part 데이터셋에서)을 제공하며, 상대적으로 작은 데이터셋인 PPSS에서 사전 학습된 모델이 인상적인 일반화 능력을 보여주었습니다. 코드는 https://github.com/RoyalVane/MMAN 에 공개되어 있습니다.