2달 전

구조적 및 부분적 관찰을 이용한 시각 대화 추론

Zilong Zheng; Wenguan Wang; Siyuan Qi; Song-Chun Zhu
구조적 및 부분적 관찰을 이용한 시각 대화 추론
초록

시각 대화(Visual Dialog)라는 복잡한 대화 구조를 다루는 과제를 해결하기 위해 새로운 모델을 제안합니다. 현재 질문과 대화 역사에 기반하여 합리적인 답변을 얻기 위해서는 대화 엔티티 간의 내재된 의미적 의존성이 필수적입니다. 본 논문에서는 이 과제를 부분적으로 관찰된 노드와 알려지지 않은 그래프 구조(대화에서의 관계)가 있는 그래픽 모델에서의 추론으로 명시적으로 정식화합니다. 주어진 대화 엔티티들은 관찰된 노드로 간주됩니다. 주어진 질문에 대한 답변은 값이 누락된 노드로 표현됩니다. 먼저, 내재된 대화 구조와 누락된 노드 값(원하는 답변)을 모두 추론하기 위한 기대 최대화 알고리즘(Expectation Maximization algorithm)을 소개합니다. 이를 바탕으로, 이 과정을 근사하는 미분 가능한 그래프 신경망(GNN, Graph Neural Network) 솔루션을 제안합니다. VisDial 및 VisDial-Q 데이터셋에서의 실험 결과는 우리의 모델이 비교 방법들을 능가함을 보여줍니다. 또한, 우리의 방법이 더 나은 대화 추론을 위해 내재된 대화 구조를 추론할 수 있음이 확인되었습니다.

구조적 및 부분적 관찰을 이용한 시각 대화 추론 | 최신 연구 논문 | HyperAI초신경