7일 전

마스크 디노: 객체 탐지 및 세그멘테이션을 위한 통합된 트랜스포머 기반 프레임워크로의 도전

Feng Li, Hao Zhang, Huaizhe xu, Shilong Liu, Lei Zhang, Lionel M. Ni, Heung-Yeung Shum
마스크 디노: 객체 탐지 및 세그멘테이션을 위한 통합된 트랜스포머 기반 프레임워크로의 도전
초록

이 논문에서는 통합 객체 탐지 및 세그멘테이션 프레임워크인 Mask DINO를 제안한다. Mask DINO는 개선된 노이즈 제거 앵커 박스를 갖춘 DETR(DINO: DETR with Improved Denoising Anchor Boxes)를 확장하여, 인스턴스 세그멘테이션, 패노픽 세그멘테이션, 세미틱 세그멘테이션을 포함한 모든 이미지 세그멘테이션 작업을 지원하는 마스크 예측 브랜치를 추가하였다. 이 모델은 DINO의 쿼리 임베딩을 활용하여 고해상도 픽셀 임베딩 맵과 내적(dot-product) 연산을 수행함으로써 이진 마스크 집합을 예측한다. DINO 내 일부 핵심 구성 요소는 공유된 아키텍처와 학습 프로세스를 통해 세그멘테이션을 위한 확장이 이루어졌다. Mask DINO는 간단하고 효율적이며 확장성이 뛰어나며, 통합된 대규모 탐지 및 세그멘테이션 데이터셋을 활용해 성능 향상을 얻을 수 있다. 실험 결과, Mask DINO는 ResNet-50 기반 모델과 SwinL 기반 사전 학습 모델 모두에서 기존의 전용 세그멘테이션 방법들을 크게 능가함을 보였다. 특히, 10억 파라미터 미만의 모델 중에서 인스턴스 세그멘테이션(COCO: 54.5 AP), 패노픽 세그멘테이션(COCO: 59.4 PQ), 세미틱 세그멘테이션(ADE20K: 60.8 mIoU)에서 현재까지 최고의 성능을 기록하였다. 코드는 \url{https://github.com/IDEACVR/MaskDINO}에서 공개되어 있다.

마스크 디노: 객체 탐지 및 세그멘테이션을 위한 통합된 트랜스포머 기반 프레임워크로의 도전 | 최신 연구 논문 | HyperAI초신경