2달 전

비지도 다중 객체 분할을 위한 주의력과 소프트-아르그맥스 활용

Bruno Sauvalle; Arnaud de La Fortelle
비지도 다중 객체 분할을 위한 주의력과 소프트-아르그맥스 활용
초록

우리는 비지도 객체 중심 표현 학습 및 다중 객체 검출과 분할을 위한 새로운 아키텍처를 소개합니다. 이 아키텍처는 번역 등변성 주의 메커니즘(translation-equivariant attention mechanism)을 사용하여 장면에 존재하는 객체들의 좌표를 예측하고 각 객체에 특징 벡터를 할당합니다. 트랜스포머 인코더는 가림 현상(occlusions)과 중복 검출(redundant detections)을 처리하며, 컨볼루션 오토인코더는 배경 재구성을 담당합니다. 우리는 이 아키텍처가 복잡한 합성 벤치마크에서 기존 최신 기술(state of the art)보다 크게 우수함을 보여줍니다.

비지도 다중 객체 분할을 위한 주의력과 소프트-아르그맥스 활용 | 최신 연구 논문 | HyperAI초신경