17일 전

K-Net: 통합 이미지 세그멘테이션을 향해

Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy
K-Net: 통합 이미지 세그멘테이션을 향해
초록

의미론적, 인스턴스, 패노픽 세그멘테이션은 그 본질적인 연관성에도 불구하고 각각 다른 전용 프레임워크를 통해 다뤄져 왔다. 본 논문은 이러한 본질적으로 유사한 작업들을 통합적이고 간단하며 효과적인 프레임워크를 통해 해결한다. 이 프레임워크는 K-Net이라 명명되었으며, 학습 가능한 커널들의 집합을 통해 인스턴스와 의미론적 카테고리를 일관되게 세그멘테이션한다. 각 커널은 잠재적 인스턴스 또는 스태프(Stuff) 클래스에 대한 마스크를 생성하는 책임을 맡는다. 다양한 인스턴스를 구분하는 데 어려움을 해결하기 위해, 입력 이미지 내에서 의미 있는 그룹에 따라 각 커널이 동적으로 조건부로 업데이트될 수 있도록 하는 커널 업데이트 전략을 제안한다. K-Net은 이중 매칭(bipartite matching)을 통해 엔드투엔드(end-to-end) 방식으로 학습이 가능하며, 학습 및 추론 과정이 자연스럽게 NMS(Non-Maximum Suppression)와 박스 기반 접근 없이 이루어진다. 별도의 복잡한 기법 없이도 K-Net은 MS COCO test-dev 분할에서 패노픽 세그멘테이션 성능을 55.2%의 PQ로, ADE20K val 분할에서 의미론적 세그멘테이션 성능을 54.3%의 mIoU로 기존에 발표된 모든 단일 모델 최고 성능을 초과한다. 또한 MS COCO에서 인스턴스 세그멘테이션 성능은 Cascade Mask R-CNN과 비슷한 수준이며, 추론 속도는 60~90% 더 빠르다. 코드와 모델은 https://github.com/ZwwWayne/K-Net/ 에 공개될 예정이다.

K-Net: 통합 이미지 세그멘테이션을 향해 | 최신 연구 논문 | HyperAI초신경