2달 전

생성 모델을 사용한 비디오 주요 객체 검출을 위한 정적 이미지 변환

Suhwan Cho; Minhyeok Lee; Jungho Lee; Sangyoun Lee
생성 모델을 사용한 비디오 주요 객체 검출을 위한 정적 이미지 변환
초록

많은 비디오 처리 작업에서 대규모 이미지 데이터셋을 활용하는 것이 일반적인 전략입니다. 이는 이미지 데이터가 더 풍부하고 포괄적인 지식 전달을 용이하게 하기 때문입니다. 정적 이미지를 사용하여 비디오를 시뮬레이션하는 일반적인 방법은 아핀 변환과 스플라인 왜곡 등의 공간 변환을 적용하여 시간적 진행을 모방하는 시퀀스를 생성하는 것입니다. 그러나 비디오 주요 객체 검출과 같은 작업에서는 외관과 운동 신호가 모두 중요하기 때문에 이러한 기본적인 이미지-비디오 기술들은 각 객체의 독립적인 운동 특성을 포착하는 실제적인 광학 흐름을 생성하지 못합니다. 본 연구에서는 이미지-비디오 확산 모델이 정적 이미지를 실제적으로 변환하면서 이미지 구성 요소 간의 맥락적 관계를 이해할 수 있음을 보여줍니다. 이 능력 덕분에 모델은 의미론적 무결성을 유지하면서 장면 요소의 독립적인 운동을 반영하는 타당한 광학 흐름을 생성할 수 있습니다. 이러한 방식으로 개별 이미지를 증강함으로써 우리는 대규모 이미지-흐름 쌍을 생성하여 모델 학습을 크게 향상시킬 수 있습니다. 우리의 접근법은 모든 공개 벤치마크 데이터셋에서 최고 성능을 달성하며, 기존 접근법들을 능가합니다.

생성 모델을 사용한 비디오 주요 객체 검출을 위한 정적 이미지 변환 | 최신 연구 논문 | HyperAI초신경