2달 전

신경 모듈 네트워크

Jacob Andreas; Marcus Rohrbach; Trevor Darrell; Dan Klein
신경 모듈 네트워크
초록

시각적 질문 응답은 본질적으로 구성적(compositional) 성격을 가지고 있습니다. 예를 들어 "개는 어디에 있나요?"라는 질문은 "개의 색깔은 무엇인가요?"와 "고양이는 어디에 있나요?" 등의 질문과 부분 구조를 공유합니다. 이 논문에서는 깊은 네트워크의 표현 능력과 질문의 구성적 언어 구조를 동시에 활용하고자 합니다. 우리는 신경 모듈 네트워크(neural module networks)를 구성하고 학습하는 절차를 설명합니다. 이 방법은 질문을 언어적 부분 구조로 분해하고, 이러한 구조를 이용하여 동적으로 모듈화된 네트워크(개를 인식하거나 색상을 분류하는 등의 재사용 가능한 컴포넌트)를 생성합니다. 결과적으로 생성된 복합 네트워크는 공동으로 훈련됩니다. 우리는 이 접근법을 두 개의 도전적인 시각적 질문 응답 데이터셋에서 평가하였으며, VQA 자연 이미지 데이터셋과 추상적인 형태에 대한 복잡한 질문이 포함된 새로운 데이터셋 모두에서 최고 수준의 결과를 달성하였습니다.

신경 모듈 네트워크 | 최신 연구 논문 | HyperAI초신경