4달 전

ReSeg: 반복 신경망 기반의 의미 분할 모델

Francesco Visin; Marco Ciccone; Adriana Romero; Kyle Kastner; Kyunghyun Cho; Yoshua Bengio; Matteo Matteucci; Aaron Courville
ReSeg: 반복 신경망 기반의 의미 분할 모델
초록

우리는 Convolutional Neural Networks(CNN)에서 추출된 지역 일반 특징과 Recurrent Neural Networks(RNN)의 먼 의존성을 검색할 수 있는 능력을 활용하는 구조적 예측 아키텍처를 제안합니다. 이 제안된 아키텍처는 이미지 분류를 위한 최근에 소개된 ReNet 모델을 기반으로 하며, 이를 수정 및 확장하여 더 어려운 의미 분할 작업을 수행하도록 합니다. 각 ReNet 레이어는 이미지를 가로와 세로 방향으로 양방향으로 스캔하며 패치나 활성화를 인코딩하고 관련 글로벌 정보를 제공하는 네 개의 RNN으로 구성됩니다. 또한, ReNet 레이어는 사전 학습된 컨볼루션 레이어 위에 쌓여 있어 일반적인 지역 특징을 활용할 수 있습니다. 최종 예측에서 원래 이미지 해상도를 복원하기 위해 ReNet 레이어 이후에 업샘플링 레이어가 위치합니다. 제안된 ReSeg 아키텍처는 효율적이며 유연하며 다양한 의미 분할 작업에 적합합니다. 우리는 ReSeg를 여러 널리 사용되는 의미 분할 데이터셋인 Weizmann Horse, Oxford Flower, 그리고 CamVid에서 평가하였으며, 최고 수준의 성능을 달성하였습니다. 결과는 ReSeg가 의미 분할 작업에 적합한 아키텍처일 수 있으며, 다른 구조적 예측 문제에도 추가적인 응용 가능성이 있음을 보여줍니다. 소스 코드와 모델 하이퍼파라미터는 https://github.com/fvisin/reseg에서 확인할 수 있습니다.