사전 훈련된 모델의 접선 공간에서의 태스크 산술: 개선된 편집 기법

최근 들어, 사전 훈련된 모델을 가중치 공간에서 직접 편집하는 비용 효율적이고 확장 가능한 방법으로 태스크 산술( task arithmetic)이 부상하고 있다. 다양한 태스크의 미세조정된 가중치를 더하면 모델의 성능이 해당 태스크에서 향상되며, 반대로 이를 상쇄하면 태스크의 망각이 발생한다. 그러나 태스크 산술의 효과성과 그 근본 원리에 대한 이해는 여전히 제한적이다. 본 연구에서는 비전-언어 모델에서 태스크 산술을 종합적으로 탐구하고, 가중치의 분리성(weight disentanglement)이 이 기법의 효과를 결정짓는 핵심 요소임을 보여준다. 이 성질은 사전 훈련 과정 중에 발생하며, 가중치 공간 내 서로 다른 방향이 각각 특정한, 국소화된 기능 공간 영역(태스크와 관련된 영역)을 지배하는 형태로 나타난다. 특히, 모델을 선형화하여 탄젠트 공간(tangent space)에서 미세조정할 경우 가중치의 분리성이 더욱 강화됨을 입증한다. 이는 다양한 모델과 여러 태스크 산술 벤치마크에서 성능 향상에 크게 기여한다. 이러한 발견을 바탕으로, 본 연구는 이러한 모델의 신경 탄젠트 커널(NTK, Neural Tangent Kernel)에 대한 이론적 및 실험적 분석을 수행하며, 태스크 산술과 NTK 고유함수의 공간적 국소화 사이에 강력한 연관성을 규명한다. 종합적으로, 본 연구는 태스크 산술의 근본적 메커니즘에 대한 새로운 통찰을 제시하며, NTK 선형화를 통해 사전 훈련된 모델을 더욱 신뢰성 있고 효과적으로 편집할 수 있는 새로운 접근법을 제안한다.