
전경 분할은 컴퓨터 비전에서 기본적인 문제로, 주요 객체 검출, 변조 검출, 초점 흐림 검출, 그림자 검출, 그리고 위장 객체 검출을 포함합니다. 이전 연구들은 이러한 응용 프로그램의 정확성과 견고성 문제를 해결하기 위해 일반적으로 영역별 솔루션에 의존해 왔습니다. 본 논문에서는 특정 작업에 대한 설계 없이 여러 전경 분할 작업을 위한 통합된 프레임워크를 제시합니다. 우리는 널리 사용되는 자연어 처리(NLP)의 사전 학습 및 프롬프트 조정 프로토콜에서 영감을 얻어 새로운 시각적 프롬프팅 모델인 명시적 시각적 프롬프팅(Explicit Visual Prompting, EVP)을 제안합니다. 이전의 시각적 프롬프팅이 일반적으로 데이터셋 수준의 암시적 임베딩이었던 것과 달리, 우리의 핵심 아이디어는 각 개별 이미지에서 명시적인 시각적 콘텐츠, 즉 동결된 패치 임베딩과 고주파 성분으로부터 추출된 특성을 강조하는 조정 가능한 매개변수를 집중시키는 것입니다. 우리의 방법은 사전 학습된 모델을 동결한 후 몇 가지 추가 매개변수를 사용하여 작업별 지식을 학습합니다. 단지 소수의 조정 가능한 매개변수만 도입했음에도 불구하고, EVP는 전체 미세 조정(full fine-tuning) 및 다른 매개변수 효율적인 미세 조정 방법들보다 우수한 성능을 보입니다. 다섯 가지 작업에 걸친 열네 개의 데이터셋에서 수행한 실험 결과, 제안된 방법이 다른 작업별 방법들을 크게 앞서면서도 상당히 간단함을 입증하였습니다. 제안된 방법은 다양한 아키텍처, 사전 학습 가중치 및 작업에서 확장 가능성을 보여주었습니다. 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.