2달 전
비디오 폴립 세그멘테이션: 딥 러닝의 관점에서
Ge-Peng Ji; Guobao Xiao; Yu-Cheng Chou; Deng-Ping Fan; Kai Zhao; Geng Chen; Luc Van Gool

초록
우리는 딥 러닝 시대의 첫 번째 포괄적인 비디오 폴립 세그멘테이션(VPS) 연구를 제시합니다. 수년 동안 VPS 발전은 대규모 세밀한 세그멘테이션 주석의 부족으로 인해 쉽게 이루어지지 않았습니다. 이 문제를 해결하기 위해 먼저 고품질의 프레임별로 주석된 VPS 데이터셋을 소개합니다. 이 데이터셋은 잘 알려진 SUN-데이터베이스에서 158,690개의 콜론 내시경 프레임을 포함하며, 이름은 SUN-SEG입니다. 우리는 다양한 유형의 추가 주석, 즉 속성, 객체 마스크, 경계, 스케치, 그리고 다각형 주석을 제공합니다.둘째로, 우리는 전역 인코더, 국부 인코더, 그리고 정규화된 자기 주의(Normalized Self-Attention, NS) 블록으로 구성된 간단하면서도 효율적인 베이스라인 모델인 PNS+를 설계했습니다. 전역 및 국부 인코더는 앵커 프레임과 여러 연속 프레임을 입력받아 장기적 및 단기적 시공간 표현을 추출하며, 이를 두 개의 NS 블록을 통해 점진적으로 업데이트합니다. 광범위한 실험 결과 PNS+가 최고의 성능과 실시간 추론 속도(170fps)를 달성하여 VPS 작업에 대한 유망한 해결책임을 보여주었습니다.셋째로, 우리의 SUN-SEG 데이터셋에서 13개의 대표적인 폴립/객체 세그멘테이션 모델들을 폭넓게 평가하고 속성 기반 비교를 제공하였습니다.마지막으로, 우리는 VPS 커뮤니티에서 다루어야 할 몇 가지 미해결 이슈들을 논의하고 가능한 연구 방향을 제안하였습니다.