
우리는 순환 딥 뉴럴 네트워크를 기반으로 한 새로운 시각 질문 응답 알고리즘을 제안합니다. 이 네트워크의 모든 모듈은 자체적으로 주의 메커니즘을 갖춘 완전한 응답 단위에 해당합니다. 네트워크는 모든 단위에서 수집된 손실을 최소화하여 최적화되며, 이들 단위는 서로 다른 정보를 받아 주의 확률을 계산하면서 모델 매개변수를 공유합니다. 학습 과정에서 우리의 모델은 이미지 피처 맵 내의 영역에 주의를 기울이고, 질문과 주목한 이미지 피처를 바탕으로 메모리를 업데이트하며, 그 메모리 상태에 따라 질문에 답합니다. 이 절차는 각 단계에서 손실을 계산하기 위해 수행됩니다.이 접근 방식의 동기는 우리가 관찰한 바와 같이, 질문에 답하기 위해서는 여러 단계의 추론이 종종 필요하지만, 각 문제마다 적절한 단계 수가 다르고 실제로 이를 식별하는 것이 어렵다는 것입니다. 따라서 우리는 항상 네트워크의 첫 번째 단위가 문제를 해결하도록 하되, 모델 성능이 저하되지 않는 한 나머지 단위들로부터 지식을 역전파로 학습할 수 있도록 합니다. 이 아이디어를 구현하기 위해, 각 단위가 과적합(overfit) 시작할 때 즉시 학습을 조기에 중단(early-stop)합니다. 더 복잡한 모델일수록 쉽게 해결할 수 있는 질문에서 빠르게 과적합되기 때문에, 펼쳐진 순환 신경망에서 마지막 응답 단위가 일반적으로 먼저 제거되는 반면 첫 번째 단위는 가장 마지막까지 남아 있습니다.공유된 모델을 사용하여 새로운 질문에 대해 단일 단계 예측(single-step prediction)을 수행합니다. 이 전략은 선택된 모델이 모든 단위로부터 효과적으로 학습하면서 과적합하지 않기 때문에 우리 프레임워크 내 다른 옵션보다 더 잘 작동합니다. 제안된 알고리즘은 VQA 데이터셋에서 다중 단계 주의 기반 접근 방식보다 단일 단계 예측으로 더 우수한 성능을 보입니다.