2달 전

시각적 프로그램 증류: 도구와 프로그래밍적 추론을 시각-언어 모델로 증류하기

Yushi Hu; Otilia Stretcu; Chun-Ta Lu; Krishnamurthy Viswanathan; Kenji Hata; Enming Luo; Ranjay Krishna; Ariel Fuxman
시각적 프로그램 증류: 도구와 프로그래밍적 추론을 시각-언어 모델로 증류하기
초록

복잡한 시각적 과제를 해결하는 것은 예를 들어 "오른쪽의 음악 도구는 누가 발명했나요?"와 같은 질문에 답하기 위해 공간 이해, 악기 인식, 그리고 이전 지식을 활용하는 능력의 조합이 필요합니다. 최근 연구에서는 이러한 과제를 대형 언어 모델(Large Language Model, LLM)을 사용하여 실행 가능한 프로그램으로 분해하여 전문적인 시각 모델을 호출하는 방법이 가능성을 보여주고 있습니다. 그러나 생성된 프로그램은 오류가 발생하기 쉽습니다: 필요한 단계를 생략하거나 불필요한 단계를 포함하며, 전문 모델이 잘못된 출력을 제공할 때 회복할 수 없습니다. 또한 여러 모델을 로드해야 하므로 높은 지연 시간과 계산 비용이 발생합니다. 우리는 이러한 문제를 해결하기 위해 Visual Program Distillation (VPD)이라는 명령 조정 프레임워크를 제안합니다. VPD는 LLM을 사용하여 여러 후보 프로그램을 샘플링하고 이를 실행 및 검증하여 올바른 프로그램을 식별함으로써 LLM의 추론 능력을 증류합니다. 각 올바른 프로그램은 추론 단계의 언어 설명으로 번역되며, 이를 통해 시각-언어 모델(Vision-Language Model, VLM)로 증류됩니다. 광범위한 실험 결과, VPD는 VLM의 개체 세기, 공간 관계 이해, 그리고 구성적 추론 능력을 향상시키는 것으로 나타났습니다. 우리에게서 VPD로 훈련된 PaLI-X는 모든 이전 VLM보다 우수한 성능을 보여주며, MMBench, OK-VQA, A-OKVQA, TallyQA, POPE 및 Hateful Memes 등 복잡한 시각적 과제에서 최신 기술 수준의 성능을 달성했습니다. 인간 주석자들의 평가에서도 VPD가 모델 응답의 사실성과 일관성을 개선시킨다는 것이 확인되었습니다. 마지막으로, 제한된 데이터로 실제 세계 응용 프로그램에 적응하는 콘텐츠 중재 실험에서도 VPD가 유용하다는 것을 입증하였습니다.