2달 전

그룹 기반 분할을 위한 통합 트랜스포머 프레임워크: 공동 분할, 공동 주요성 검출 및 비디오 주요 객체 검출

Su, Yukun ; Deng, Jingliang ; Sun, Ruizhou ; Lin, Guosheng ; Wu, Qingyao
그룹 기반 분할을 위한 통합 트랜스포머 프레임워크:
공동 분할, 공동 주요성 검출 및 비디오 주요 객체 검출
초록

인간은 동적인 세계에서 살기 때문에 이미지 그룹이나 비디오의 몇몇 프레임을 통해 객체를 학습하는 경향이 있습니다. 컴퓨터 비전 분야에서는 공통 객체 발견을 위해 공분할(co-segmentation, CoS), 공주요성 검출(co-saliency detection, CoSD) 및 비디오 주요 객체 검출(video salient object detection, VSOD)에 많은 연구가 집중되어 왔습니다. 그러나 이전 접근 방식들은 이러한 유사한 작업들을 별도로 다른 네트워크를 설계하였으며, 서로 적용하기 어려워 딥러닝 프레임워크의 전이 가능성(transferability) 상한선을 낮추었습니다. 또한, 이미지 그룹 내에서의 상호 및 내부 특징 간의 힌트(cues)를 충분히 활용하지 못하였습니다.본 논문에서는 이러한 문제들을 해결하기 위한 통합 프레임워크를 제안하며, 이를 UFO (Unified Framework for Co-Object Segmentation)라고 명명합니다. 구체적으로, 먼저 이미지 특징을 패치 토큰으로 보는 트랜스포머 블록을 도입하였습니다. 이는 자기 주의(self-attention) 메커니즘을 통해 장거리 의존성을 포착하여 관련 객체들 사이의 패치 구조적 유사성을 발굴하는 데 도움이 됩니다. 또한, 부분 활성화(partial activation)를 피하기 위해 네트워크를 강화하는 내부 MLP 학습 모듈(intra-MLP learning module)을 제안하였습니다.네 개의 CoS 벤치마크(PASCAL, iCoseg, Internet, MSRC), 세 개의 CoSD 벤치마크(Cosal2015, CoSOD3k, CocA) 및 네 개의 VSOD 벤치마크(DAVIS16, FBMS, ViSal, SegV2)에서 수행된 광범위한 실험 결과는 본 방법론이 동일한 네트워크 아키텍처를 사용하면서 세 가지 다른 작업 모두에서 정확성과 속도 면에서 다른 최신 기술(state-of-the-art)보다 우수함을 보여주며, 실시간으로 140 FPS(Frames Per Second)를 달성할 수 있었습니다.

그룹 기반 분할을 위한 통합 트랜스포머 프레임워크: 공동 분할, 공동 주요성 검출 및 비디오 주요 객체 검출 | 최신 연구 논문 | HyperAI초신경