9일 전

ViperGPT: 추론을 위한 파이썬 실행을 통한 시각적 추론

Dídac Surís, Sachit Menon, Carl Vondrick
ViperGPT: 추론을 위한 파이썬 실행을 통한 시각적 추론
초록

시각적 질의에 대한 응답은 시각 처리와 추론 능력이 모두 필요하기 때문에 복잡한 작업이다. 이 작업에 대한 주류 접근 방식인 엔드투엔드 모델은 두 가지 능력을 명시적으로 구분하지 않기 때문에 해석 가능성과 일반화 능력에 한계가 있다. 모듈러 프로그램을 학습하는 방식은 유망한 대안이지만, 프로그램과 모듈을 동시에 학습하는 것이 어려워 실제 적용이 쉽지 않았다. 우리는 ViperGPT라는 프레임워크를 제안한다. 이 프레임워크는 코드 생성 모델을 활용해 시각-언어 모델을 하위 프로시저로 조합하여 다양한 질의에 대해 결과를 생성한다. ViperGPT는 제공된 API를 통해 사용 가능한 모듈에 접근하고, 이후 실행 가능한 파이썬 코드를 생성하여 모듈을 조합한다. 이 간단한 접근 방식은 추가 학습이 필요 없으며, 다양한 복잡한 시각 작업에서 최신 기준(SOTA) 성능을 달성한다.