2달 전
시각적 추론을 위한 프로그램의 유추 및 실행
Justin Johnson; Bharath Hariharan; Laurens van der Maaten; Judy Hoffman; Li Fei-Fei; C. Lawrence Zitnick; Ross Girshick

초록
기존의 시각 추론 방법들은 블랙박스 구조를 사용하여 입력을 출력으로 직접 매핑하려고 하며, 이 과정에서 기본적인 추론 과정을 명시적으로 모델링하지 않습니다. 그 결과, 이러한 블랙박스 모델들은 종종 데이터의 편향성을 이용하는 방법을 학습하는 경우가 많아 시각 추론을 수행하는 방법을 제대로 학습하지 못합니다. 모듈 네트워크에서 영감을 얻어, 본 논문에서는 시각 추론을 위한 모델을 제안합니다. 이 모델은 명시적인 추론 과정 표현을 구성하는 프로그램 생성기와 해당 프로그램을 실행하여 답변을 생성하는 실행 엔진으로 구성됩니다. 프로그램 생성기와 실행 엔진 모두 신경망으로 구현되며, 역전파와 REINFORCE(강화학습 알고리즘)의 조합을 사용하여 훈련됩니다. CLEVR 벤치마크를 사용한 시각 추론 실험에서, 제안된 모델이 강력한 기준모델들을 크게 능가하고 다양한 환경에서 더 우수한 일반화 성능을 보임을 입증하였습니다.