16일 전

DualVD: 시각 대화에서 깊이 있는 시각 이해를 위한 적응형 이중 인코딩 모델

Xiaoze Jiang, Jing Yu, Zengchang Qin, Yingying Zhuang, Xingxing Zhang, Yue Hu, Qi Wu
DualVD: 시각 대화에서 깊이 있는 시각 이해를 위한 적응형 이중 인코딩 모델
초록

시각적 질문 응답(VQA) 작업은 이미지에 대한 단일 질문에 답하는 데 초점을 맞추는 반면, 시각적 대화(Visual Dialogue)는 다양한 객체, 관계 또는 의미 정보를 포함하는 광범위한 시각적 콘텐츠에 대해 다수의 질문을 다룹니다. 따라서 시각적 대화 작업의 핵심 과제는 질문의 종류에 따라 적응 가능한 주의(attention)를 가지며, 더 포괄적이고 의미 정보가 � rich한 이미지 표현을 학습하는 데 있습니다. 본 연구에서는 시각적 및 의미적 관점에서 이미지를 동시에 묘사할 수 있는 새로운 모델을 제안합니다. 구체적으로, 시각적 관점은 객체 및 객체 간 관계와 같은 외형 수준의 정보를 포착하는 데 기여하고, 의미적 관점은 전체 이미지에서 국소 영역에 이르기까지 고차원적인 시각적 의미를 이해할 수 있도록 에이전트를 지원합니다. 또한 이러한 다중 관점 이미지 특징 위에, 질문과 관련된 정보를 세밀한 수준에서 계층적으로 적응적으로 추출할 수 있는 특징 선택 프레임워크를 제안합니다. 제안된 방법은 기준 시각적 대화 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성하였습니다. 더욱 중요한 점은, 게이트 값(gate values)을 시각화함으로써 현재 질문에 답하는 데 있어 시각적 모달리티와 의미적 모달리티 중 어느 쪽이 더 큰 기여를 했는지를 판단할 수 있다는 점입니다. 이는 인간의 시각적 대화 인지 과정을 이해하는 데 중요한 통찰을 제공합니다.

DualVD: 시각 대화에서 깊이 있는 시각 이해를 위한 적응형 이중 인코딩 모델 | 최신 연구 논문 | HyperAI초신경