2달 전

단일 및 다중 모달 시각 객체 추적을 위한 통합된 시퀀스-투-시퀀스 학습

Xin Chen; Ben Kang; Jiawen Zhu; Dong Wang; Houwen Peng; Huchuan Lu
단일 및 다중 모달 시각 객체 추적을 위한 통합된 시퀀스-투-시퀀스 학습
초록

본 논문에서는 RGB 기반 및 다중 모드 객체 추적을 위한 새로운 시퀀스-투-시퀀스 학습 프레임워크를 소개합니다. 첫째, RGB 기반 추적을 위해 SeqTrack를 제시합니다. SeqTrack는 시각 추적을 시퀀스 생성 작업으로 변환하여, 자기 회귀 방식으로 객체의 바운딩 박스를 예측합니다. 이는 이전의 추적기들이 분류 및 회귀 헤드와 같은 복잡한 헤드 네트워크 설계에 의존하는 것과 달라집니다. SeqTrack는 기본적인 인코더-디코더 트랜스포머 구조를 사용하며, 인코더는 양방향 트랜스포머를 통해 특징을 추출하고, 디코더는 인과 트랜스포머를 사용하여 바운딩 박스 시퀀스를 자기 회귀 방식으로 생성합니다. 손실 함수는 단순한 크로스 엔트로피입니다.둘째, 다중 모드 추적 작업을 위한 통합된 시퀀스-투-시퀀스 프레임워크인 SeqTrackv2를 소개합니다. SeqTrackv2는 SeqTrack를 확장하여 보조 모달리티의 통합 인터페이스와 태스크 프롬프트 토큰 세트를 통합함으로써 특정 작업을 지정할 수 있습니다. 이를 통해 단일 모델과 파라미터 세트로 다중 모드 추적 작업을 관리할 수 있습니다. 이러한 시퀀스 학습 패러다임은 추적 프레임워크를 단순화하면서도 5개의 단일 및 다중 모드 추적 작업에 걸친 14개의 도전적인 벤치마크에서 우수한 성능을 보여줍니다. 코드와 모델은 https://github.com/chenxin-dlut/SeqTrackv2에서 제공됩니다.

단일 및 다중 모달 시각 객체 추적을 위한 통합된 시퀀스-투-시퀀스 학습 | 최신 연구 논문 | HyperAI초신경