학습 품질 인식 동적 메모리를 이용한 비디오 객체 분할

최근, 공간-시간 기억 기반 방법들은 중간 프레임과 그 마스크를 기억으로 저장하는 것이 비디오에서 대상 객체를 분할하는 데 도움이 됨을 입증하였습니다. 그러나 이러한 방법들은 주로 현재 프레임과 기억 프레임 간의 더 나은 일치에 초점을 맞추고 있으며, 기억의 품질에 명시적으로 주목하지 않는 경향이 있습니다. 따라서 분할 마스크가 부정확한 프레임들이 쉽게 기억되게 되어, 이는 분할 마스크 오류 누적 문제를 초래하고 분할 성능에 영향을 미칠 수 있습니다. 또한, 프레임 수의 증가에 따라 기억 프레임이 선형적으로 증가함으로써 모델들이 긴 비디오를 처리하는 능력이 제한됩니다. 이를 해결하기 위해, 우리는 각 프레임의 분할 품질을 평가하여 정확히 분할된 프레임들을 선택적으로 저장함으로써 오류 누적 문제를 방지하는 품질 인식 동적 기억 네트워크(Quality-aware Dynamic Memory Network, QDMN)를 제안합니다. 그런 다음, 우리는 분할 품질과 시간 일관성을 결합하여 동적으로 기억 은행을 업데이트하여 모델들의 실용성을 개선합니다. 별다른 특별한 기법 없이도, 우리의 QDMN은 DAVIS와 YouTube-VOS 벤치마크에서 새로운 최고 수준의 성능을 달성하였습니다. 더욱이, 광범위한 실험들은 제안된 품질 평가 모듈(Quality Assessment Module, QAM)이 일반적인 플러그인으로서 기억 기반 방법들에 적용될 수 있으며 성능을 크게 개선한다는 것을 입증하였습니다. 우리의 소스 코드는 https://github.com/workforai/QDMN에서 이용 가능합니다.