17일 전

ISTR: Transformers를 활용한 엔드투엔드 인스턴스 세그멘테이션

Jie Hu, Liujuan Cao, Yao Lu, ShengChuan Zhang, Yan Wang, Ke Li, Feiyue Huang, Ling Shao, Rongrong Ji
ISTR: Transformers를 활용한 엔드투엔드 인스턴스 세그멘테이션
초록

엔드투엔드 패러다임은 다양한 딥러닝 기반 컴퓨터 비전 모델의 정확도를 크게 향상시킨다. 이를 위해 객체 탐지와 같은 작업들은 비엔드투엔드 구성 요소를 제거함으로써 개선되어 왔으며, 이는 이중 매칭 기반의 세트 손실(set loss)을 사용해 훈련함으로써 비최대 억제(non-maximum suppression)를 제거하는 방식으로 이루어졌다. 그러나 객체 탐지에 비해 출력 차원이 훨씬 높은 인스턴스 세그멘테이션의 경우 이러한 개선 방식은 적용되지 않는다. 본 논문에서는 세계 최초로 엔드투엔드 구조를 채택한 인스턴스 세그멘테이션 트랜스포머인 ISTR(Instance Segmentation Transformer)를 제안한다. ISTR은 저차원 마스크 임베딩을 예측하고, 이를 실제 마스크 임베딩과 매칭하여 세트 손실을 계산한다. 또한 ISTR은 반복적 정밀화 전략을 통해 탐지와 세그멘테이션을 동시에 수행하며, 기존의 상향식(top-down) 및 하향식(bottom-up) 프레임워크와는 다른 새로운 방식으로 인스턴스 세그멘테이션을 달성한다. 제안된 엔드투엔드 메커니즘의 이점을 활용하여, ISTR은 근사 기반의 하위 최적 임베딩을 사용하더라도 최첨단 성능을 보였다. 구체적으로 MS COCO 데이터셋에서 ResNet50-FPN을 사용할 경우 46.8/38.6(box/mask AP), ResNet101-FPN을 사용할 경우 48.1/39.9(box/mask AP)의 성능을 달성하였다. 정량적 및 정성적 실험 결과는 ISTR이 인스턴스 수준의 인식을 위한 견고한 베이스라인으로서의 희망적인 잠재력을 지닌다는 것을 보여준다. 코드는 다음 주소에서 공개되어 있다: https://github.com/hujiecpp/ISTR.