11일 전

OTSeg: 제로샷 세미틱 세그멘테이션을 위한 다중 프롬프트 싱커론 어텐션

Kwanyoung Kim, Yujin Oh, Jong Chul Ye
OTSeg: 제로샷 세미틱 세그멘테이션을 위한 다중 프롬프트 싱커론 어텐션
초록

최근 CLIP의 성공은 다중 모달 지식을 픽셀 수준의 분류에 전이함으로써 제로샷 세그멘테이션에서 희망적인 결과를 보여주었다. 그러나 기존의 접근 방식에서는 사전 학습된 CLIP 지식을 활용하여 텍스트 임베딩과 픽셀 임베딩을 더욱 정밀하게 일치시키는 데 여전히 한계가 있다. 이 문제를 해결하기 위해, 관련 픽셀 임베딩과의 매칭을 향상시키기 위해 다중 텍스트 프롬프트의 잠재력을 극대화하는 새로운 다중 모달 어텐션 메커니즘인 OTSeg를 제안한다. 먼저, 최적 운송(Optimal Transport, OT) 알고리즘을 기반으로 다중 프롬프트 신크혼(Multi-Prompts Sinkhorn, MPS)을 제안하며, 이는 여러 텍스트 프롬프트가 이미지 픽셀 내 다양한 의미적 특징에 선택적으로 집중하도록 유도한다. 또한, 단일 모달 환경에서 Sinkformer의 성공에 영감을 받아, MPS를 확장한 다중 프롬프트 신크혼 어텐션(Multi-Prompts Sinkhorn Attention, MPSA)을 도입하여, 다중 모달 환경에서 Transformer 아키텍처 내의 크로스 어텐션 메커니즘을 효과적으로 대체한다. 광범위한 실험을 통해 OTSeg가 세 가지 벤치마크 데이터셋에서 제로샷 세그멘테이션(ZS3) 과제에 대해 최고 수준의 성능(SOTA)을 달성하며 두드러진 성능 향상을 보임을 입증하였다.

OTSeg: 제로샷 세미틱 세그멘테이션을 위한 다중 프롬프트 싱커론 어텐션 | 최신 연구 논문 | HyperAI초신경