11일 전

시각 대화를 위한 반복적 컨텍스트 인지 그래프 추론

Dan Guo, Hui Wang, Hanwang Zhang, Zheng-Jun Zha, Meng Wang
시각 대화를 위한 반복적 컨텍스트 인지 그래프 추론
초록

시각 대화(Visual dialog)는 은유적인 시각적 및 텍스트적 맥락 간의 의미적 의존 관계를 이해해야 하는 도전적인 과제이다. 이 과제는 희소한 맥락과 구조가 미지인 그래프 모델 내에서 관계 추론을 의미하며, 이를 어떻게 맥락 인지 관계 추론을 모델링할 것인지가 핵심이다. 이를 해결하기 위해 우리는 새로운 맥락 인지 그래프(Context-Aware Graph, CAG) 신경망을 제안한다. CAG에서 그래프의 각 노드는 객체 기반(시각적) 및 이력 관련(텍스트적) 맥락 표현을 포함하는 통합된 의미 특징에 대응한다. 그래프 구조(대화 내 관계)는 적응형 top-$K$ 메시지 전달 메커니즘을 통해 반복적으로 업데이트된다. 구체적으로, 각 메시지 전달 단계에서 각 노드는 가장 관련성이 높은 $K$개의 노드를 선택하고, 오직 해당 노드들로부터만 메시지를 수신한다. 이후 업데이트를 거친 후, 모든 노드에 그래프 주의 메커니즘을 적용하여 최종 그래프 임베딩을 얻고 답변을 추론한다. CAG에서는 각 노드가 그래프 내에서 동적으로 변화하는 관계를 가지며(다른 관련 $K$개 이웃 노드), 맥락 인지 관계 추론에 기여하는 것은 오직 가장 관련성 있는 노드들에 한정된다. VisDial v0.9 및 v1.0 데이터셋에서의 실험 결과는 CAG가 비교 기법들을 초월함을 보여주며, 시각화 결과를 통해 제안 방법의 해석 가능성(interpretability)도 추가로 검증된다.

시각 대화를 위한 반복적 컨텍스트 인지 그래프 추론 | 최신 연구 논문 | HyperAI초신경