2달 전

시각 대화에서 시각적 참조 해결을 위한 듀얼 어텐션 네트워크

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang
시각 대화에서 시각적 참조 해결을 위한 듀얼 어텐션 네트워크
초록

시각적 대화(VisDial)는 이미지에 기반한 일련의 질문에 답변해야 하는 인공지능(AI) 에이전트의 작업입니다. 시각적 질문 응답(VQA)과 달리, 이 질문들의 시리즈는 대화 역사에서 시간적 맥락을 포착하고 시각적으로 기반한 정보를 활용할 수 있어야 합니다. 이러한 도전 과제 중 하나인 시각적 참조 해결 문제는 에이전트가 주어진 질문에서 모호한 참조를 해결하고 주어진 이미지에서 해당 참조를 찾도록 요구합니다. 본 논문에서는 시각적 참조 해결을 위해 듀얼 어텐션 네트워크(DAN)를 제안합니다. DAN은 두 가지 유형의 어텐션 네트워크, 즉 REFER와 FIND로 구성됩니다. 구체적으로, REFER 모듈은 자기 어텐션 메커니즘을 사용하여 주어진 질문과 대화 역사 간의 잠재적인 관계를 학습합니다. FIND 모듈은 이미지 특징과 참조 인식 표현(즉, REFER 모듈의 출력)을 입력으로 받아 바텀업 어텐션 메커니즘을 통해 시각적 근거 추론을 수행합니다. 우리는 VisDial v1.0 및 v0.9 데이터셋을 이용하여 우리의 모델을 정성적으로와 정량적으로 평가하였으며, 결과는 DAN이 이전 최신 연구 모델보다 상당히 우수함을 보여주었습니다.

시각 대화에서 시각적 참조 해결을 위한 듀얼 어텐션 네트워크 | 최신 연구 논문 | HyperAI초신경