16일 전

자연어 사양을 통한 공동 시각적 기초화 및 추적

Li Zhou, Zikun Zhou, Kaige Mao, Zhenyu He
자연어 사양을 통한 공동 시각적 기초화 및 추적
초록

자연어 사양을 통한 추적은 시퀀스 내에서 자연어 설명에 의해 지칭된 대상을 위치하는 것을 목표로 한다. 기존 알고리즘은 이 문제를 두 단계—시각적 기반(visual grounding)과 추적(tracking)—으로 나누어 해결하며, 각각 별도의 기반 모델과 추적 모델을 배치하여 처리한다. 그러나 이러한 분리된 프레임워크는 시각적 기반과 추적 간의 상호 연관성을 간과한다. 즉, 자연어 설명은 두 단계 모두에서 대상의 위치 결정에 있어 전반적인 의미 정보를 제공한다는 점을 간과하는 것이다. 더불어 분리된 프레임워크는 엔드투엔드(end-to-end) 학습이 거의 불가능하다는 한계가 있다. 이러한 문제를 해결하기 위해, 본 연구는 시각적 기반과 추적을 통합된 작업으로 재정의하는 공동 시각-언어 기반 추적 프레임워크를 제안한다. 이는 주어진 시각-언어 참조를 기반으로 지칭된 대상을 위치시키는 하나의 통합된 작업으로 간주한다. 구체적으로, 테스트 이미지와 시각-언어 참조 간의 관계를 효과적으로 구축하기 위해 다중 소스 관계 모델링 모듈을 제안한다. 또한, 전반적인 의미 정보를 기반으로 시계적 정보를 유도하는 시간 모델링 모듈을 설계하여, 대상의 외형 변화에 대한 모델의 적응력을 효과적으로 향상시켰다. TNL2K, LaSOT, OTB99, RefCOCOg에서 수행된 광범위한 실험 결과는 제안된 방법이 추적 및 기반 모두에서 최첨단 알고리즘과 비교해 우수한 성능을 보임을 입증한다. 코드는 https://github.com/lizhou-cs/JointNLT 에서 공개되어 있다.

자연어 사양을 통한 공동 시각적 기초화 및 추적 | 최신 연구 논문 | HyperAI초신경