2달 전

역사의 중요성을 높이기: 시각적 대화를 위한 역사-우위 시퀀스 훈련

Tianhao Yang; Zheng-Jun Zha; Hanwang Zhang
역사의 중요성을 높이기: 시각적 대화를 위한 역사-우위 시퀀스 훈련
초록

우리는 시각적 대화에서 다단계 응답 생성을 연구합니다. 이는 이미지 기반의 대화 역사에 따라 응답이 생성되는 과정을 의미합니다. 이미지, Q&A 역사, 그리고 현재 질문으로 구성된 트리플렛이 주어졌을 때, 모든 기존 방법은 감독 학습 패러다임에서 인코더-디코더 방식을 따릅니다: 멀티모달 인코더가 트리플렛을 피처 벡터로 인코딩하고, 이를 디코더에 입력하여 현재 답변을 생성하며, 이 과정은 지면 진실(ground-truth)에 의해 감독됩니다. 그러나 이러한 전통적인 감독 학습은 불완전한 역사의 영향을 고려하지 않아, 시각적 대화의 대화적 특성을 위반하고 코덱(codec)이 역사 편향(history bias)을 배우는 경향이 더 강해지고 맥락 추론(contextual reasoning)에는 집중하지 않는 문제를 가지고 있습니다.이를 해결하기 위해, 강화 학습의 액터-크리틱 정책 그래디언트(actor-critic policy gradient)에서 영감을 받아 새로운 훈련 패러다임인 '역사 우위 순서 훈련(History Advantage Sequence Training, HAST)'을 제안합니다. 구체적으로, 우리는 역사를 고의로 잘못된 답변으로 설정하여 부정적인 크리틱(adverse critic)을 얻고, 이 역사적 오류가 코덱의 미래 행동에 어떻게 영향을 미치는지를 '역사 우위(History Advantage)'—즉, 지면 진실의 금상첨화(gold reward)에서 부정적인 크리틱 값을 뺀 값—를 통해 관찰합니다. 또한, 코덱이 역사에 더욱 민감하도록 하기 위해 '역사 인식 공동 주목 네트워크(History-Aware Co-Attention Network, HACAN)'라는 새로운 주목 네트워크를 제안하며, 이는 HAST를 사용하여 효과적으로 훈련될 수 있습니다.세 가지 벤치마크(VisDial v0.9 & v1.0 및 GuessWhat?!)에서 수행한 실험 결과는 제안된 HAST 전략이 최신 감독 학습 방법들보다 일관되게 우수한 성능을 보임을 입증하였습니다.