2달 전

비지도 학습을 통한 서술형 지시 영상 학습

Jean-Baptiste Alayrac; Piotr Bojanowski; Nishant Agrawal; Josef Sivic; Ivan Laptev; Simon Lacoste-Julien

초록

우리는 자동차 타이어 교체와 같은 특정 작업을 완료하기 위한 주요 단계를 담고 있는 서술된 지시 영상의 집합에서 자동으로 학습하는 문제를 다룹니다. 본 논문의 기여는 세 가지로 요약할 수 있습니다. 첫째, 입력 영상과 연관된 서술의 보완적 특성을 활용하는 새로운 비지도 학습 접근법을 개발하였습니다. 이 방법은 텍스트와 영상에서 각각 클러스터링 문제를 해결하여, 두 모달리티 모두에서 단일 일관된 단계 시퀀스를 얻기 위해 서로 연결된 공동 제약 조건에 의해 순차적으로 적용됩니다. 둘째, 인터넷에서 수집하고 주석화한 새로운 도전적인 실제 세계 지시 영상 데이터셋을 소개합니다. 이 데이터셋은 사람과 물체 간의 복잡한 상호작용을 포함하며, 다양한 실내 및 실외 환경에서 캡처된 5가지 다른 작업에 대한 약 800,000프레임을 포함하고 있습니다. 셋째, 실험을 통해 제안된 방법이 비지도 방식으로 작업을 수행하기 위한 주요 단계를 자동으로 발견하고 입력 영상에서 해당 단계의 위치를 파악할 수 있음을 입증하였습니다.