17일 전

MSN: 비디오 인스턴스 세그멘테이션을 위한 효율적인 온라인 마스크 선택 네트워크

Vidit Goel, Jiachen Li, Shubhika Garg, Harsh Maheshwari, Humphrey Shi
MSN: 비디오 인스턴스 세그멘테이션을 위한 효율적인 온라인 마스크 선택 네트워크
초록

본 연구에서는 비디오 인스턴스 세그멘테이션(VIS)을 위한 새로운 솔루션을 제안한다. 이 방법은 비디오 내에서 객체의 클래스를 식별하고, 인스턴스 수준의 세그멘테이션 마스크를 자동으로 생성하며, 시간에 따라 객체를 추적하는 것을 가능하게 한다. 제안하는 방법은 마스크 선택 네트워크(Mask Selection Network, MSN)를 활용하여 세그멘테이션 및 전파 브랜치로부터 생성된 마스크를 온라인 방식으로 개선함으로써 마스크 추적 과정에서의 노이즈 누적을 제한한다. MSN는 패치 기반의 합성곱 신경망을 효과적으로 설계하여, 마스크 간 미세한 차이를 정확히 구분하고, 관련된 마스크들 중 더 우수한 마스크를 정확히 선택할 수 있도록 한다. 또한, 시간적 일관성을 활용하여 비디오 시퀀스를 정방향과 역방향 모두에서 처리하는 후처리 단계를 도입함으로써 소실된 객체를 복구한다. 제안된 방법은 어떤 비디오 객체 세그멘테이션 기법에도 VIS 작업에 적합하도록 적응할 수 있다. 본 연구는 2021년 YouTube-VIS 챌린지에서 49.1 mAP의 성능을 기록하며 전 세계 30개 이상의 팀 중 3위를 차지했다. 코드는 https://github.com/SHI-Labs/Mask-Selection-Networks 에 공개될 예정이다.