
초록
이 논문에서는 ‘시각 대화(Visual Dialog)’ 문제를 해결하기 위한 확률적 프레임워크를 제안한다. 이 문제를 해결하기 위해서는 시각적 모달리티, 언어적 모달리티, 그리고 보편적 지식에 대한 추론과 이해가 필요하다. 다양한 아키텍처가 시각적 표현과 언어적 표현을 결합하는 다중 모달 딥러닝 기법의 변형을 통해 이 문제를 해결하기 위해 제안되어 왔다. 그러나 우리는 이 문제를 해결하기 위해 불확실성의 원인을 이해하고 분석하는 것이 매우 중요하다고 믿는다. 제안하는 방법은 불확실성을 추정할 수 있게 하며, 다양한 답변 생성에도 기여한다. 제안된 접근법은 이미지, 질문, 대화 이력에 대한 표현을 제공하는 확률적 표현 모듈, 확률적 표현을 기반으로 후보 답변에 대해 다양한 은닉 표현을 확보하는 모듈, 그리고 불확실성을 최소화하는 답변을 선택하는 불확실성 표현 모듈로 구성된다. 우리는 제안된 모델에 대해 철저한 아블레이션 분석, 최첨단 기법과의 비교, 그리고 방법 이해를 돕는 불확실성 시각화를 통해 종합적인 평가를 수행하였다. 이러한 확률적 프레임워크를 활용함으로써, 더 뛰어난 성능을 보이는 동시에 해석 가능성 또한 향상된 시각 대화 시스템을 구현할 수 있었다.