Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation 밀집 연결된 매개변수 효율적인 튜닝을 이용한 참조 이미지 분할

컴퓨터 비전 분야에서 파라미터 효율적인 튜닝(Parameter-Efficient Tuning, PET)이 전통적인 사전 학습 후 전체 미세 조정(full fine-tuning) 패러다임을 점차 대체하고 있습니다. PET는 큰 기반 모델(foundation models)에서 특히 효과적이며, 전이 학습(transfer learning) 비용을 줄이고 하드웨어 활용도를 최적화하는 데 기여합니다. 그러나 현재의 PET 방법론은 주로 단일 모달(single-modal) 최적화를 위해 설계되었습니다. 일부 선구적인 연구들은 초기 탐색을 시도했지만, 여전히 정렬된 인코더(aligned encoders, 예: CLIP) 수준에 머물러 있으며, 비정렬된 인코더(misaligned encoders)에 대한 탐색은 부족한 상태입니다. 이러한 방법론들은 미세 조정(fine-tuning) 중 다중 모달(multimodal) 특성을 효과적으로 정렬하지 못하기 때문에 비정렬된 인코더에서 최적의 성능을 보이지 않습니다. 본 논문에서는 저 순위(low-rank) 시각적 특성 전파를 강화하고 각 층과 모든 이전 층 사이에 밀집된 연결(dense interconnections)을 구축하여 효과적인 교차 모달(cross-modal) 특성 상호작용과 비정렬된 인코더 적응을 가능하게 하는 파라미터 효율적인 튜닝 프레임워크인 DETRIS를 소개합니다. 또한 텍스트 어댑터(text adapters)를 사용하여 텍스트 특성을 개선하는 방안을 제시합니다. 우리의 간단하면서도 효율적인 접근법은 도전적인 벤치마크에서 0.9%에서 1.8%의 백본(backbone) 파라미터 업데이트로 최신 방법론들을 크게 능가합니다. 본 프로젝트는 \url{https://github.com/jiaqihuang01/DETRIS}에서 이용할 수 있습니다.