3달 전
메모리 매칭만으로는 부족하다: 비디오 객체 세그멘테이션을 위한 메모리 매칭과 디코딩의 공동 최적화
Jintu Zheng, Yun Liang, Yuqing Zhang, Wanchao Su

초록
메모리 기반 영상 객체 분할 방법은 메모리 백을 구축함으로써 장시간·대규모 공간 영역에 걸쳐 여러 객체를 모델링하여 뛰어난 성능을 달성하고 있다. 그러나 이러한 방법들은 잘못된 매칭 문제를 해결하기 어려우며, 중요한 정보를 상실하기 쉬워 서로 다른 객체 간의 혼동을 유발한다. 본 논문에서는 매칭 및 디코딩 단계를 공동으로 개선함으로써 잘못된 매칭 문제를 완화하는 효과적인 접근법을 제안한다. 매칭 단계에서는 단기 메모리에 대한 미세한 오차를 억제하는 비용 인지 메커니즘과 장기 메모리에 대한 병렬형 다스케일 매칭 기법을 제안하여 다양한 객체 규모에 대응할 수 있는 광범위한 매칭 공간을 구축한다. 디코딩 단계에서는 매칭 단계에서 정보가 손실된 경우에 해당 정보를 회복하기 위한 보상 메커니즘을 도입한다. 제안하는 방법은 여러 인기 있는 벤치마크에서 뛰어난 성능을 기록하였으며, DAVIS 2016&2017 Val(92.4%&88.1%) 및 DAVIS 2017 Test(83.9%)에서 높은 정확도를 달성하였고, YouTubeVOS 2018&2019 Val에서 각각 84.8% 및 84.6%의 성능을 보였다.