SocialGPT: Greedy 세그먼트 최적화를 통한 사회 관계 추론을 위한 LLM 프롬프팅

사회 관계 추론은 이미지에서 친구, 배우자, 동료 등의 관계 범주를 식별하는 것을 목표로 합니다. 현재의 방법들은 라벨링된 이미지 데이터를 사용하여 전용 네트워크를 엔드투엔드로 훈련시키는 패러다임을 채택하고 있지만, 일반화 능력과 해석 가능성 측면에서 제한적입니다. 이러한 문제들을 해결하기 위해, 우리는 {ame}라는 이름의 간단하면서도 정교하게 설계된 프레임워크를 제시합니다. 이 프레임워크는 모듈식 구조 내에서 비전 기초 모델(Vision Foundation Models, VFMs)의 인식 능력과 대형 언어 모델(Large Language Models, LLMs)의 추론 능력을 결합하여 사회 관계 인식에 대한 강력한 기준선을 제공합니다. 구체적으로, 우리는 VFMs에게 이미지 내용을 텍스트 형태의 사회 이야기로 변환하도록 지시하고, 그 다음에 LLMs를 이용하여 텍스트 기반 추론을 수행합니다. {ame}는 VFMs와 LLMs를 각각 적응시키고 그 간극을 연결하기 위한 체계적인 설계 원칙을 도입합니다. 추가적인 모델 훈련 없이도 두 개의 데이터베이스에서 경쟁력 있는 제로샷 결과를 달성하며, LLMs가 결정에 대한 언어 기반 설명을 생성할 수 있어 해석 가능한 답변을 제공합니다.LLMs의 추론 단계에서 수동으로 프롬프트 설계하는 과정은 번거롭기 때문에 자동 프롬프트 최적화 방법이 필요합니다. 우리는 본질적으로 시각 분류 작업을 LLMs의 생성 작업으로 변환하므로, 자동 프롬프트 최적화는 고유한 긴 프롬프트 최적화 문제에 직면하게 됩니다. 이를 해결하기 위해, 우리는 그래디언트 정보를 세그먼트 단위로 활용하는 탐욕적 세그먼트 프롬프트 최적화(Greedy Segment Prompt Optimization, GSPO) 방법을 제안합니다. 실험 결과 GSPO가 성능을 크게 향상시키며, 우리의 방법은 다양한 이미지 스타일에도 일반화되는 것으로 나타났습니다. 코드는 https://github.com/Mengzibin/SocialGPT에서 확인할 수 있습니다.