11일 전
시각 및 언어 인코더 간의 다리 놓기: 참조 이미지 세그멘테이션을 위한 파라미터 효율적인 튜닝
Zunnan Xu, Zhihong Chen, Yong Zhang, Yibing Song, Xiang Wan, Guanbin Li

초록
매개변수 효율적 튜닝(Parametric Efficient Tuning, PET)은 성능을 유지하면서 매개변수 수를 줄이고 하드웨어 자원 절약 효과를 제공하여 주목받고 있으나, 밀도 높은 예측 작업 및 다중 모달 간의 상호작용에 관한 연구는 여전히 부족한 실정이다. 본 논문에서는 참조 이미지 세그멘테이션(Referring Image Segmentation) 문제에 대한 효율적 튜닝에 대해 조사한다. 우리는 사전 훈련된 모델에 작업 특화 정보를 주입하고 다중 모달 간의 정보 교환을 촉진하기 위해 새로운 어댑터인 Bridger를 제안한다. 또한 이미지 세그멘테이션을 위한 경량 디코더를 설계하였다. 제안한 방법은 도전적인 벤치마크에서 백본 모델의 매개변수 갱신 비율이 단지 1.61%에서 3.38%에 불과함에도 불구하고 기존 방법과 비견되거나 그 이상의 성능을 달성하였다. 코드는 \url{https://github.com/kkakkkka/ETRIS}에서 공개되어 있다.