2달 전

컨볼루션은 사라지지 않는다: 단일 동결 컨볼루셔널 CLIP을 이용한 오픈 보카브러리 세그멘테이션

Qihang Yu; Ju He; Xueqing Deng; Xiaohui Shen; Liang-Chieh Chen
컨볼루션은 사라지지 않는다: 단일 동결 컨볼루셔널 CLIP을 이용한 오픈 보카브러리 세그멘테이션
초록

오픈 어휘 분할은 다양한 범주에서 객체를 분할하고 인식하는 어려운 작업입니다. 이 문제를 해결하기 위한 한 가지 방법은 CLIP과 같은 다중 모드 모델을 활용하여 공유 임베딩 공간에서 이미지와 텍스트 특성을 제공하는 것입니다. 이를 통해 폐쇄 어휘와 오픈 어휘 인식 사이의 간극을 줄일 수 있습니다. 따라서 기존 방법에서는 입력이 먼저 마스크 생성기(Mask Generator)를 거친 후 예측된 마스크와 함께 CLIP 모델을 통과시키는 두 단계 프레임워크를 자주 채택합니다. 그러나 이 과정은 이미지에서 특성을 여러 번 추출해야 하므로 비효율적이고 비효율적일 수 있습니다.대조적으로, 우리는 공유된 Froze Convolutional CLIP 백본을 사용하여 모든 것을 단일 단계 프레임워크로 구축하는 것을 제안합니다. 이는 현재의 두 단계 파이프라인을 크게 단순화하면서도 정확성-비용 균형을 크게 개선합니다. 제안된 FC-CLIP는 다음과 같은 관찰 결과로부터 혜택을 받습니다: Froze CLIP 백본은 오픈 어휘 분류 능력을 유지하며 강력한 마스크 생성기 역할도 할 수 있으며, Convolutional CLIP은 대조적인 이미지-텍스트 사전 학습 중에 사용된 해상도보다 더 큰 입력 해상도에 잘 일반화됩니다.COCO 팬오라믹 데이터만으로 학습하고 제로샷 방식으로 테스트할 때, FC-CLIP는 ADE20K에서 26.8 PQ, 16.8 AP, 34.1 mIoU, Mapillary Vistas에서 18.2 PQ, 27.9 mIoU, Cityscapes에서 44.0 PQ, 26.8 AP, 56.2 mIoU를 달성하였습니다. 이는 각각 ADE20K에서 +4.2 PQ, +2.4 AP, +4.2 mIoU, Mapillary Vistas에서 +4.0 PQ, Cityscapes에서 +20.1 PQ로 기존 연구를 크게 능가한 결과입니다.또한 FC-CLIP의 학습 및 테스트 시간은 동일한 기존 연구보다 각각 7.5배와 6.6배 빠르며, 매개변수 개수가 5.9배 적게 사용되었습니다. FC-CLIP는 또한 다양한 오픈 어휘 의미 분할 데이터셋에서 새로운 최고 성능을 달성하였습니다.코드: https://github.com/bytedance/fc-clip