2달 전
시각적 목표-단계 추론을 사용한 wikiHow
Yue Yang; Artemis Panagopoulou; Qing Lyu; Li Zhang; Mark Yatskar; Chris Callison-Burch

초록
목표를 달성하기 위해 필요한 단계의 순서를 이해하는 것은 인공지능 시스템이 인간 활동에 대해 추론하는 데 도움을 줄 수 있습니다. 과거 자연어 처리(NLP) 연구에서는 텍스트에 대한 목표-단계 추론 작업을 검토하였습니다. 우리는 이 작업의 시각적 유사체를 소개합니다. 우리는 시각적 목표-단계 추론(VGSI) 작업을 제안하며, 이 작업에서 모델은 텍스트로 표현된 목표가 주어지고, 그 목표를 달성하기 위한 가능한 단계를 나타내는 네 개의 이미지 중 하나를 선택해야 합니다. 위키하우(wikiHow)에서 수집한 772,277개의 이미지를 포함하는 새로운 데이터셋을 통해, 우리의 작업이 최신 다중모달 모델에게도 어려운 것으로 보여집니다. 또한, 우리 데이터에서 학습된 다중모달 표현은 HowTo100M 등의 다른 데이터셋으로 효과적으로 전이될 수 있으며, VGSI 정확도를 15 - 20% 향상시킬 수 있음을 보였습니다. 우리의 작업은 절차적 사건에 대한 다중모달 추론을 촉진할 것입니다.