2달 전
비디오 폴립 분할을 위한 점진적으로 정규화된 자기 주의 네트워크
Ge-Peng Ji; Yu-Cheng Chou; Deng-Ping Fan; Geng Chen; Huazhu Fu; Debesh Jha; Ling Shao

초록
기존 비디오 폴립 세그멘테이션(VPS) 모델은 일반적으로 합성곱 신경망(CNNs)을 사용하여 특징을 추출합니다. 그러나 제한된 수용 영역 때문에 CNNs는 연속적인 비디오 프레임에서의 전역 시간적 및 공간적 정보를 완전히 활용하지 못하여, 잘못된 양성 세그멘테이션 결과를 초래할 수 있습니다. 본 논문에서는 단일 RTX 2080 GPU에서 실시간 속도(약 140fps)로 폴립 비디오에서 효율적으로 표현을 학습하고 후처리 없이 동작하는 새로운 PNS-Net (진행형 정규화 자기 주의 네트워크, Progressively Normalized Self-attention Network)을 제안합니다. 제안된 PNS-Net은 순환 구조와 CNNs를 전혀 포함하지 않고, 기본적인 정규화 자기 주의 블록만으로 구성되어 있습니다. 도전적인 VPS 데이터셋에 대한 실험 결과, 제안된 PNS-Net이 최고 수준의 성능을 달성함을 보여줍니다. 또한 채널 분할, 소프트 어텐션, 그리고 진행형 학습 전략의 효과성을 연구하기 위해 광범위한 실험을 수행하였습니다. 실험 결과, PNS-Net은 다양한 설정에서도 잘 작동하며, 이는 VPS 작업에 대한 유망한 해결책임을 나타냅니다.