11일 전

시각 대화를 위한 MRR 및 NDCG 모델의 앙상블

Idan Schwartz
시각 대화를 위한 MRR 및 NDCG 모델의 앙상블
초록

인간의 언어로 대화를 나누고 시각적 콘텐츠를 이해할 수 있는 AI 에이전트를 평가하는 것은 도전적인 과제이다. BLEU 점수와 같은 생성형 평가 지표는 문법적 정확성보다 의미적 정확성에 덜 중점을 둔다. 따라서 일반적으로 에이전트가 후보 답변군을 순위 매기는 판별적 접근 방식이 사용된다. 평균 역수 순위(Mean Reciprocal Rank, MRR) 지표는 단일 인간 생성 답변의 순위를 고려하여 모델 성능을 평가한다. 그러나 이 접근 방식은 새로운 도전 과제를 야기한다. 즉, 답변의 모호성과 동의어 문제(예: ‘yeah’과 ‘yes’의 의미적 동치성)이다. 이를 해결하기 위해 밀도 높은 주석(annotation)을 통해 모든 정답의 관련성을 포착하는 정규화된 할인 누적 수익(Normalized Discounted Cumulative Gain, NDCG) 지표가 활용되고 있다. 그러나 NDCG 지표는 일반적으로 사용 가능한 불확실한 답변(예: ‘I don’t know’)을 선호하는 경향이 있다. MRR와 NDCG 지표 모두에서 뛰어난 성능을 발휘하는 모델을 구축하는 것은 매우 어렵다. 이상적으로 AI 에이전트는 인간과 유사한 응답을 제공할 뿐만 아니라, 모든 답변의 정확성을 검증할 수 있어야 한다. 이러한 문제를 해결하기 위해, 강력한 MRR 및 NDCG 모델을 융합할 수 있는 이단계 비매개변수적 순위 매기기 방식을 제안한다. 본 연구에서 제안한 방법을 사용하여, MRR 지표에서는 최신 기준 성능(70.41% vs. 71.24%)을 유지하면서도, NDCG 지표에서는 최신 기준 성능(72.16% vs. 75.35%)을 달성하였다. 또한 본 방법은 최근의 Visual Dialog 2020 챌린지에서 우승을 차지하였다. 소스 코드는 다음 링크에서 제공된다: https://github.com/idansc/mrr-ndcg.

시각 대화를 위한 MRR 및 NDCG 모델의 앙상블 | 최신 연구 논문 | HyperAI초신경