2달 전

GroupViT: 텍스트 감독에서 의미 분할이 나타나다

Jiarui Xu; Shalini De Mello; Sifei Liu; Wonmin Byeon; Thomas Breuel; Jan Kautz; Xiaolong Wang
GroupViT: 텍스트 감독에서 의미 분할이 나타나다
초록

그룹화와 인식은 시각적 장면 이해의 중요한 구성 요소입니다. 예를 들어, 객체 검출과 의미 분할에 사용됩니다. 엔드투엔드 딥 러닝 시스템에서는 이미지 영역의 그룹화가 일반적으로 픽셀 단위 인식 라벨로부터 위에서 아래로 감독을 통해 암시적으로 이루어집니다. 그러나 본 논문에서는 이러한 그룹화 메커니즘을 딥 네트워크로 되돌려놓는 방법을 제안합니다. 이 방법은 텍스트 감독만으로 의미적인 세그먼트가 자동으로 생성될 수 있도록 합니다. 우리는 정규 그리드 구조 표현을 넘어 이미지 영역을 점차 더 큰 임의 형태의 세그먼트로 그룹화하는 방법을 학습하는 계층적 그룹화 비전 트랜스포머(GroupViT)를 제안합니다. 우리는 대규모 이미지-텍스트 데이터셋에서 대조 손실 함수를 통해 텍스트 인코더와 함께 GroupViT를 공동으로 훈련시킵니다. 픽셀 단위 주석 없이 텍스트 감독만으로도 GroupViT는 의미적인 영역을 그룹화하고, 추가적인 미세 조정(fine-tuning) 없이 의미 분할 작업에 성공적으로 전이학습(transfer learning)됩니다. PASCAL VOC 2012 데이터셋에서 52.3% mIoU(mean Intersection over Union)와 PASCAL Context 데이터셋에서 22.4% mIoU의 제로샷(zero-shot) 정확도를 달성하며, 더 많은 수준의 감독이 필요한 최신 전이학습 방법들과 경쟁력 있는 성능을 보입니다. 우리의 코드는 https://github.com/NVlabs/GroupViT 에 오픈 소스로 공개되었습니다.

GroupViT: 텍스트 감독에서 의미 분할이 나타나다 | 최신 연구 논문 | HyperAI초신경