17일 전

음성-시각 장면 인식 대화를 위한 간단한 베이스라인

{ Tamir Hazan, Alexander G. Schwing, Idan Schwartz}
음성-시각 장면 인식 대화를 위한 간단한 베이스라인
초록

최근 제안된 음성-시각적 장면 인지 대화 작업은 가상 보조자, 스마트 스피커, 자동차 내비게이션 시스템 등에 대한 더 많은 데이터 기반 학습 방식을 가능하게 한다. 그러나 현재까지 이러한 장치의 계산 엔진에 과도하게 쏟아지는 다양한 센서들로부터 의미 있는 정보를 효과적으로 추출하는 방법에 관해 거의 알려진 바가 없다. 따라서 본 논문에서는 음성-시각적 장면 인지 대화 작업을 위한 단순한 베이스라인을 제안하고, 이를 종단 간(end-to-end)으로 학습하는 방법을 제시하며 철저히 분석한다. 제안하는 방법은 주목성(attention) 메커니즘을 활용하여 데이터 기반 방식으로 유용한 신호와 방해 요소를 구분한다. 또한 최근 소개된 도전적인 음성-시각적 장면 인지 데이터셋을 기반으로 제안된 접근법을 평가하여, CIDEr 지표에서 기존 최고 성능 기준을 20% 이상 상회하는 핵심 특성을 입증한다.