시간 동적 그래프 LSTM을 이용한 행동 기반 비디오 객체 검출

본 논문에서는 약간의 감독을 받는 객체 검출 프레임워크를 연구합니다. 대부분의 기존 프레임워크는 정적 이미지를 사용하여 객체 검출기를 학습하는 데 초점을 맞추고 있습니다. 그러나 이러한 검출기는 영역 이동(domain shift)으로 인해 비디오에 일반화하기 어려운 경우가 많습니다. 따라서, 우리는 일상 활동의 지루한 비디오에서 직접 이러한 검출기를 학습하는 방법을 연구합니다. 바운딩 박스를 사용하지 않고, 비교적 쉽게 수집할 수 있는 행동 설명을 감독 자료로 활용하는 방안을 탐구합니다. 하지만 일반적인 문제점은 인간의 행동과 관련되지 않은 관심 객체들이 전역적인 행동 설명(global action descriptions)에서 빠지는 "누락된 라벨(missing label)" 현상입니다. 이 문제를 해결하기 위해, 우리는 새로운 시간 동적 그래프 장단기 기억망(TD-Graph LSTM)을 제안합니다. TD-Graph LSTM은 객체 제안들의 시간적 상관관계에 기반한 동적 그래프를 구축하여 전체 비디오에 걸쳐 전역적인 시간 추론을 가능하게 합니다.这样一来,通过在整个视频中转移相关对象建议的知识,可以显著缓解每个单独帧的缺失标签问题。 为了使句子更符合韩语的表达习惯,我将对最后一句进行优化:이렇게 하면, 전체 비디오에서 관련된 객체 제안 간의 지식을 전달함으로써 각 개별 프레임의 누락된 라벨 문제를 크게 완화할 수 있습니다.대규모 일상생활 행동 데이터셋(예: Charades)에서 수행한 광범위한 평가는 우리 제안 방법의 우수성을 입증합니다. 또한, 우리는 Charades 데이터셋의 5,000개 이상 프레임에 대한 객체 바운딩 박스 주석을 공개합니다. 우리는 이 주석 데이터가 향후 비디오 기반 객체 인식 연구에도 도움이 될 것으로 믿습니다.