17일 전

DeVIS: 변형 가능한 트랜스포머를 영상 인스턴스 세그멘테이션에 효과적으로 적용하기 위한 방법

Adrià Caelles, Tim Meinhardt, Guillem Brasó, Laura Leal-Taixé
DeVIS: 변형 가능한 트랜스포머를 영상 인스턴스 세그멘테이션에 효과적으로 적용하기 위한 방법
초록

비디오 인스턴스 세그멘테이션(VIS)은 비디오 시퀀스에서 다중 객체 탐지, 추적, 세그멘테이션을 동시에 해결하는 작업이다. 과거의 VIS 방법들은 이러한 하위 작업들의 분절적 특성을 아키텍처 설계에 반영하면서 통합적인 해결책을 놓쳤다. 최근 트랜스포머(Transformer) 기술을 통해 전체 VIS 작업을 단일 세트 예측 문제로 재정의할 수 있게 되었으나, 기존의 트랜스포머 기반 방법들은 이차 복잡도를 가지며, 긴 학습 시간과 높은 메모리 요구량, 낮은 단일 스케일 특징 맵 처리 능력을 동반한다. 변형 가능(attentive)한 주의(attention) 메커니즘은 더 효율적인 대안을 제공하지만, 시간 영역이나 세그멘테이션 작업에 대한 적용은 아직 탐색되지 않았다.본 연구에서는 변형 가능한 트랜스포머의 효율성과 성능을 극대화한 새로운 VIS 방법인 Deformable VIS(DeVIS)를 제안한다. 다중 프레임에 걸쳐 모든 VIS 하위 작업을 통합적으로 처리하기 위해, 인스턴스 인식 가능한 객체 쿼리(instance-aware object queries)를 활용한 시간적 다중 스케일 변형 주의 메커니즘을 제안한다. 또한 다중 스케일 특징을 활용하는 새로운 이미지 및 비디오 인스턴스 마스크 헤드를 도입하고, 다중 쿠(clip) 추적을 통한 근접 온라인 비디오 처리를 수행한다. DeVIS는 메모리 사용량과 학습 시간을 크게 줄이며, YouTube-VIS 2021과 도전적인 OVIS 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성한다.코드는 다음 링크에서 공개된다: https://github.com/acaelles97/DeVIS

DeVIS: 변형 가능한 트랜스포머를 영상 인스턴스 세그멘테이션에 효과적으로 적용하기 위한 방법 | 최신 연구 논문 | HyperAI초신경