HPT++: 다중 균질성 지식 생성과 개선된 구조 모델링을 통한 계층적 프롬프트 비전-언어 모델

프롬프트 학습은 CLIP과 같은 시각-언어 기반 모델(VLM)을 하류 작업에 적응시키는 데 널리 사용되는 전략으로 부상하고 있다. 대규모 언어 모델(LLM)의 등장과 함께 최근 연구들은 카테고리 관련 설명을 활용하여 프롬프트의 효과를 향상시킬 수 있는 잠재력을 탐구해왔다. 그러나 기존의 설명들은 엔티티나 속성과 특정 카테고리 간의 관계를 표현하는 데 필요한 명시적인 구조 정보를 부족하게 제공한다. 기존의 프롬프트 튜닝 방법들이 구조적 지식을 다루는 데 거의 주목하지 않는 점을 고려할 때, 본 논문은 각 설명에 대해 LLM을 활용하여 그래프를 구성함으로써 이러한 구조적 지식을 우선시할 것을 제안한다. 이를 통해 구조적 지식과 전통적인 언어적 지식을 동시에 모델링할 수 있는 새로운 접근법인 계층적 프롬프트 튜닝(Hierarchical Prompt Tuning, HPT)을 제안한다. 구체적으로, 저수준 프롬프트 학습을 위해 엔티티와 속성 간의 쌍별 상관관계를 포착할 수 있는 관계 유도 주의 모듈을 도입한다. 또한 고수준 및 전역 수준의 프롬프트를 통합하여 전반적인 의미를 모델링함으로써, 제안된 계층 구조는 수준 간 상호 연결을 형성하고 모델이 보다 복잡하고 장기적인 관계를 처리할 수 있도록 한다. 마지막으로, 다중 계층 지식 생성을 강화하고, 관계 기반 주의 재가중 모듈을 재설계하며, 계층적 텍스트 인코더에 일관성 제약 조건을 도입함으로써 HPT의 성능을 더욱 향상시킨 HPT++를 제안한다. 실험은 베이스-투-뉴 일반화, 크로스-데이터셋 평가, 도메인 일반화 등 다양한 평가 설정에서 수행되었다. 광범위한 실험 결과와 아블레이션 스터디를 통해 제안된 방법의 효과성을 입증하였으며, 기존의 최고 성능(SOTA) 방법들을 일관되게 상회함을 확인하였다.