2달 전

시각적 대화를 위한 주의력 메모리를 사용한 시각적 참조 해결

Paul Hongsuck Seo; Andreas Lehrmann; Bohyung Han; Leonid Sigal
시각적 대화를 위한 주의력 메모리를 사용한 시각적 참조 해결
초록

시각적 대화는 입력된 이미지를 바탕으로 상호 의존적인 질문 시리즈에 답하는 작업으로, 종종 질문들 사이의 시각적 참조를 해결해야 합니다. 이 문제는 이미지와 질문 쌍에서 추정된 공간 주의(즉, 시각적 정착)에 의존하는 시각적 질문 응답(VQA)과 다릅니다. 우리는 현재 참조를 해결하기 위해 과거의 시각적 주의를 활용하는 새로운 주의 메커니즘을 제안합니다. 제안된 모델은 이전 (주의, 키) 쌍들의 시퀀스를 저장하는 연관 주의 메모리를 갖추고 있습니다. 이 메모리에서 모델은 현재 질문과 가장 관련성이 높으면서 최근성을 고려한 이전 주의를 검색하여 잠재적으로 모호한 참조를 해결합니다. 모델은 검색된 주의와 가설적인 주의를 결합하여 현재 질문에 대한 최종 주의를 얻습니다. 특히, 우리는 동적 매개변수 예측을 사용하여 질문에 조건부로 두 개의 주의를 결합합니다. 새로운 합성 시각적 대화 데이터셋에서 수행한 광범위한 실험을 통해, 시각적 참조 해결이 중요한 역할을 하는 상황에서 우리의 모델이 기존 최신 기술보다 크게 우수함(약 16% 포인트)을 보여주었습니다. 또한, 제안된 모델은 기준선보다 훨씬 적은 매개변수를 가지고 있음에도 불구하고 Visual Dialog 데이터셋에서 우수한 성능(약 2% 포인트 향상)을 달성하였습니다.

시각적 대화를 위한 주의력 메모리를 사용한 시각적 참조 해결 | 최신 연구 논문 | HyperAI초신경