시각-언어 모델을 위한 구조화된 언어 지식을 활용한 계층적 프롬프트 학습

프롬프트 학습은 비전-언어 기반 모델을 하류 작업에 적응시키는 데 널리 사용되는 전략으로 부상하고 있다. 대규모 언어 모델(Large Language Models, LLMs)의 등장 이후, 최근 연구들은 카테고리 관련 설명을 입력으로 활용하여 프롬프트의 효과를 향상시키는 방안을 탐구해왔다. 그러나 기존의 설명 방식은 특정 카테고리와 관련된 실체나 속성 간의 상호 연결성을 효과적으로 표현할 수 있는 구조화된 정보를 제공하지 못한다는 한계가 있다. 이러한 문제를 해결하고 구조화된 지식의 활용을 우선시하기 위해, 본 논문은 각 설명에 대해 LLM을 활용하여 실체, 속성 및 그 간의 관계를 모델링하는 그래프를 구축할 것을 제안한다. 기존의 프롬프트 튜닝 방법은 이러한 구조화된 지식을 효과적으로 다루지 못하는 한계를 지닌다. 따라서 우리는 구조화된 지식과 전통적인 언어적 지식을 동시에 모델링할 수 있도록 하는 새로운 접근법인 계층적 프롬프트 튜닝(Hierarchical Prompt Tuning, HPT)을 제안한다. 구체적으로, 저수준 프롬프트 학습을 위해 실체와 속성 간의 쌍별 상관관계를 포착할 수 있는 관계 유도형 어텐션 모듈을 도입한다. 또한 고수준 및 전반적인 의미를 모델링하는 고수준 프롬프트를 통합함으로써, 제안된 계층 구조는 수준 간 상호 연결을 형성하고, 더 복잡하고 장기적인 관계를 처리할 수 있는 능력을 모델에 부여한다. 광범위한 실험을 통해 HPT가 기존 최고 수준의 기법(SOTA)보다 강력한 효과를 보이며 훨씬 뛰어난 일반화 성능을 나타냄을 입증하였다. 본 연구의 코드는 https://github.com/Vill-Lab/2024-AAAI-HPT 에서 공개되어 있다.