11일 전

FocalClick: 실용적인 상호작용 이미지 세그멘테이션을 향해

Xi Chen, Zhiyan Zhao, Yilei Zhang, Manni Duan, Donglian Qi, Hengshuang Zhao
FocalClick: 실용적인 상호작용 이미지 세그멘테이션을 향해
초록

인터랙티브 세그멘테이션은 사용자가 긍정적/부정적 클릭을 통해 대상 마스크를 추출할 수 있게 해줍니다. 여러 이전 연구들이 이를 탐색해왔음에도 불구하고, 학계의 접근 방식과 산업적 요구 사이에는 여전히 격차가 존재합니다. 첫째, 기존 모델들은 저전력 장치에서 효율적으로 작동하기에 부족합니다. 둘째, 기존 마스크를 정교화할 때 성능이 낮아 정확한 부분까지 파괴하는 경향이 있습니다. FocalClick은 국소적 영역에서 마스크를 예측하고 업데이트함으로써 이 두 가지 문제를 동시에 해결합니다. 더 높은 효율성을 위해 전체 이미지에 대한 느린 예측을 작은 영역에 대한 두 가지 빠른 추론으로 분해합니다. 즉, 타겟 영역에서의 거친 세그멘테이션과 집중 영역에서의 국소적 정교화입니다. 기존 마스크와 함께 작동하게 하기 위해 '인터랙티브 마스크 보정(Interactive Mask Correction)'이라는 하위 과제를 제안하고, 이를 해결하기 위한 '프로그레시브 머지(Progressive Merge)' 기법을 제안합니다. 프로그레시브 머지는 형태학적 정보를 활용하여 어떤 부분을 보존하고 어떤 부분을 업데이트할지 결정함으로써, 사용자가 기존 마스크를 효과적으로 정교화할 수 있도록 합니다. FocalClick은 상대적으로 훨씬 적은 FLOPs로 최신 기술(SOTA) 수준의 성능을 달성하며, 기존 마스크에 대한 보정 작업에서 특히 뛰어난 성능을 보입니다. 코드와 데이터는 github.com/XavierCHEN34/ClickSEG 에 공개될 예정입니다.

FocalClick: 실용적인 상호작용 이미지 세그멘테이션을 향해 | 최신 연구 논문 | HyperAI초신경