2달 전

저수준 구조 세그멘테이션을 위한 명시적 시각적 프롬프팅

Liu, Weihuang ; Shen, Xi ; Pun, Chi-Man ; Cun, Xiaodong
저수준 구조 세그멘테이션을 위한 명시적 시각적 프롬프팅
초록

우리는 이미지에서 저레벨 구조를 감지하는 일반적인 문제를 고려합니다. 이는 조작된 부분을 분할하고, 초점이 맞지 않은 픽셀을 식별하며, 그림자 영역을 분리하고, 숨겨진 물체를 감지하는 것을 포함합니다. 각각의 이러한 주제는 일반적으로 도메인 특화된 솔루션으로 다루어졌지만, 우리는 통합 접근법이 모든 주제에 걸쳐 우수한 성능을 보임을 보여줍니다. 우리는 널리 사용되는 자연어 처리(NLP)의 사전 학습 및 프롬프트 조정 프로토콜에서 영감을 받아 새로운 시각적 프롬프팅 모델인 명시적 시각적 프롬프팅(Explicit Visual Prompting, EVP)을 제안합니다.기존의 시각적 프롬프팅과 달리, EVP는 데이터셋 수준의 암시적 임베딩이 아닌 각 개별 이미지로부터 명시적인 시각적 콘텐츠에 집중하도록 조정 가능한 매개변수를 강제합니다. 즉, 동결된 패치 임베딩에서 추출한 특성들과 입력의 고주파 성분들을 활용합니다. 제안된 EVP는 동일한 양의 조정 가능한 매개변수(각 작업당 5.7% 추가 학습 가능한 매개변수) 하에서 다른 매개변수 효율적인 조정 프로토콜보다 크게 우월한 성능을 보입니다. 또한 EVP는 작업 특화 솔루션과 비교하여 다양한 저레벨 구조 분할 작업에서 최신 기술 수준의 성능을 달성하였습니다.우리의 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.

저수준 구조 세그멘테이션을 위한 명시적 시각적 프롬프팅 | 최신 연구 논문 | HyperAI초신경