16일 전

고품질에서의 세그멘테이션 애니웨어

Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu
고품질에서의 세그멘테이션 애니웨어
초록

최근에 등장한 '세그먼트 어니씽 모델(Segment Anything Model, SAM)'은 세그멘테이션 모델의 스케일업에 큰 도약을 이뤘으며, 강력한 제로샷 능력과 유연한 프롬프팅을 가능하게 한다. 그러나 SAM은 11억 개의 마스크로 훈련되었음에도 불구하고, 복잡한 구조를 가진 객체를 다룰 때 마스크 예측 품질이 여전히 부족한 경우가 많다. 우리는 SAM의 원래 프롬프트 가능 설계, 효율성, 제로샷 일반화 능력을 유지하면서도, 어떤 객체라도 정확하게 세그멘테이션할 수 있는 능력을 부여하는 'HQ-SAM'을 제안한다. 본 연구는 SAM의 사전 훈련된 가중치를 재사용하고 보존하면서, 추가적인 파라미터와 계산량을 최소화한 주의 깊은 설계를 수행한다. 우리는 SAM의 마스크 디코더에 삽입되는 가중치 학습 가능한 고품질 출력 토큰(High-Quality Output Token)을 설계하여, 고품질 마스크를 예측하는 역할을 맡기고자 하였다. 단순히 마스크 디코더 특징에만 적용하는 대신, 초기 및 최종 ViT 특징과 먼저 융합함으로써 마스크의 세부 정보를 향상시켰다. 도입한 가중치 학습 가능한 파라미터를 훈련하기 위해 여러 출처에서 수집한 총 44,000개의 세밀한 마스크로 구성된 데이터셋을 구성하였다. HQ-SAM은 오직 44,000개의 마스크로 구성된 새로운 데이터셋에서만 훈련되며, 8개의 GPU를 사용할 경우 단 4시간이면 완료된다. 우리는 다양한 하류 작업에 걸쳐 10개의 세그멘테이션 데이터셋에서 HQ-SAM의 효과성을 입증하였으며, 그 중 8개는 제로샷 전이 프로토콜로 평가되었다. 코드와 사전 훈련된 모델은 https://github.com/SysCV/SAM-HQ 에서 확인할 수 있다.

고품질에서의 세그멘테이션 애니웨어 | 최신 연구 논문 | HyperAI초신경