
초록
온라인 학습(OL) 기술이 준지도 비디오 객체 분할(VOS) 방법의 성능을 향상시켰음에도 불구하고, OL의 막대한 시간 비용은 이러한 방법들의 실제 활용성을 크게 제약하고 있습니다. 매칭 기반 및 전파 기반 방법들은 OL 기술을 피함으로써 더 빠른 속도로 실행됩니다. 그러나, 미스매치와 드리프트 문제로 인해 최적의 정확도를 달성하지 못하는 한계가 있습니다. 본 논문에서는 실시간으로 매우 정확한 순위 주의 네트워크(RANet)를 개발하여 VOS에 적용하였습니다. 구체적으로, 매칭 기반 및 전파 기반 방법들의 통찰력을 통합하기 위해 인코더-디코더 프레임워크를 사용하여 픽셀 수준의 유사성과 분할을 엔드투엔드 방식으로 학습합니다. 유사성 맵을 더 효과적으로 활용하기 위해, 우리는 새로운 순위 주의 모듈을 제안하는데, 이 모듈은 자동으로 이러한 맵들을 순위화하고 선택하여 세부적인 VOS 성능을 향상시킵니다. DAVIS-16 및 DAVIS-17 데이터셋에서 수행된 실험 결과, 우리의 RANet은 최고의 속도-정확도 균형을 달성하였음을 확인할 수 있으며, 예를 들어 DAVIS-16에서는 프레임당 33밀리초와 J&F=85.5%를 기록하였습니다. OL을 사용하면, 우리의 RANet은 DAVIS-16에서 J&F=87.1%를 달성하여 최신 VOS 방법들을 초월하였습니다. 코드는 https://github.com/Storife/RANet에서 확인할 수 있습니다.