11일 전

지침 영상을 통한 다중 작업 약한 감독 학습

{Ramazan Gokberk Cinbis, Jean-Baptiste Alayrac, Ivan Laptev, Dimitri Zhukov, Josef Sivic, David Fouhey}
지침 영상을 통한 다중 작업 약한 감독 학습
초록

본 논문에서는 시간적 애너테이션 대신 지침 서술과 단계 순서 목록을 통해 약한 감독을 이용하여 일상적인 작업의 단계에 대한 시각 모델을 학습하는 문제를 탐구한다. 본 연구의 핵심은 서로 다른 단계를 학습할 때 모델이 공통 구성 요소를 공유할 경우 약한 감독 학습이 더 쉬울 수 있다는 관찰에 있다. 예를 들어, 계란을 부어 넣기'라는 단계는부어 넣기(pour)'와 `계란(egg)'을 포함하는 다른 작업들과 함께 공동으로 학습되어야 한다. 우리는 이러한 아이디어를 단계 인식을 위한 구성 요소 기반 모델과, 서술과 단계 목록의 시간적 제약 조건 하에서 이를 학습할 수 있는 약한 감독 학습 프레임워크로 수학적으로 정식화한다. 과거의 데이터는 구성 요소 공유에 대한 체계적인 연구를 허용하지 않기 때문에, 우리는 교차 작업 내 공유를 평가하기 위해 새로운 데이터셋인 CrossTask를 수집하였다. 실험 결과, 특히 구성 요소 수준에서 작업 간 공유가 이루어질 때 성능 향상이 두드러지며, 본 구성 요소 기반 모델이 구성성(compositionality)의 특성 덕분에 이전에 본 적 없는 작업도 성공적으로 해석할 수 있음을 입증하였다.

지침 영상을 통한 다중 작업 약한 감독 학습 | 최신 연구 논문 | HyperAI초신경