2달 전

장기 재귀적 컨볼루션 네트워크를 이용한 시각 인식 및 설명

Jeff Donahue; Lisa Anne Hendricks; Marcus Rohrbach; Subhashini Venugopalan; Sergio Guadarrama; Kate Saenko; Trevor Darrell
장기 재귀적 컨볼루션 네트워크를 이용한 시각 인식 및 설명
초록

깊은 합성곱 네트워크를 기반으로 하는 모델들이 최근의 이미지 해석 작업에서 주도적인 역할을 하고 있습니다. 본 연구에서는 순환적이거나 "시간적으로 깊은" 모델들이 시퀀스 관련 작업, 시각적 또는 그 외의 작업에 효과적인지를 조사합니다. 우리는 대규모 시각적 학습에 적합한 새로운 순환 합성곱 구조를 개발하였으며, 이 모델들의 가치를 벤치마크 비디오 인식 작업, 이미지 설명 및 검색 문제, 그리고 비디오 내레이션 과제에서 입증하였습니다.현재의 모델들은 시퀀스 처리를 위해 고정된 공간-시간 수용 영역이나 간단한 시간 평균을 가정하지만, 순환 합성곱 모델들은 공간과 시간 "층"에서 구성적으로 작동할 수 있는 "이중으로 깊은" 특성을 가지고 있습니다. 이러한 모델들은 목표 개념이 복잡하거나 훈련 데이터가 제한적일 때 장점이 있을 수 있습니다. 네트워크 상태 업데이트에 비선형성이 통합되면 장기 의존성을 학습하는 것이 가능해집니다. 장기 RNN 모델들은 변수 길이 입력(예: 비디오 프레임)을 변수 길이 출력(예: 자연어 텍스트)으로 직접 매핑하고 복잡한 시간 동역학을 모델링할 수 있어 매력적입니다. 그럼에도 불구하고 이러한 모델들은 역전파를 통해 최적화될 수 있습니다.우리의 장기 순환 모델들은 현대의 시각적 컨볼루셔널 네트워크(convnet) 모델들과 직접 연결되어 있으며, 시간 동역학과 합성곱 지각 표현을 동시에 학습하기 위해 공동으로 훈련될 수 있습니다. 우리의 결과는 이러한 모델들이 인식 또는 생성을 위해 개별적으로 정의되거나 최적화된 최신 기술보다 명확한 우위를 가지고 있음을 보여줍니다.