실제 환경에서 트랜스포머를 활용한 투명 물체 세그멘테이션

본 연구는 기존의 대규모 투명 물체 세분화 데이터셋인 Trans10K-v1(최초의 대규모 투명 물체 세분화 데이터셋)을 확장한 새로운 세분화 정밀도가 높은 투명 물체 세분화 데이터셋인 Trans10K-v2를 제안한다. Trans10K-v1이 단지 두 가지 제한된 카테고리만을 포함한 것과 달리, 본 연구에서 제안하는 새로운 데이터셋은 다음과 같은 여러 매력적인 장점을 갖는다. (1) 인간의 일상 환경에서 흔히 나타나는 11개의 세분화된 카테고리의 투명 물체를 포함하고 있어, 실제 적용에 있어 더 높은 실용성을 제공한다. (2) 기존의 최신 세분화 기법에 비해 Trans10K-v2는 보다 높은 도전 과제를 제시한다. 또한, 본 연구에서는 새로운 트랜스포머 기반 세분화 파이프라인인 Trans2Seg를 제안한다. 먼저, Trans2Seg의 트랜스포머 인코더는 CNN의 국소적 수용장(Receptive Field)과는 대비되는 전역적 수용장(Receptive Field)을 제공함으로써 순수한 CNN 아키텍처에 비해 뛰어난 성능을 보여준다. 둘째, 의미적 세분화를 사전 검색(dictionary lookup) 문제로 공식화함으로써, Trans2Seg의 트랜스포머 디코더의 쿼리로 사용할 수 있는 학습 가능한 프로토타입들을 설계하였다. 각 프로토타입은 전체 데이터셋 내 특정 카테고리의 통계 정보를 학습하게 된다. 본 연구에서는 최근의 20개 이상의 의미적 세분화 방법을 벤치마킹하여, Trans2Seg가 모든 CNN 기반 방법을 크게 능가함을 입증하였으며, 제안된 알고리즘이 투명 물체 세분화 문제를 해결할 잠재적 능력을 지니고 있음을 보여주었다.