
초록
캡슐은 동일한 실체의 서로 다른 특성을 나타내는 뉴런의 집합이다. 캡슐 네트워크의 각 층에는 다수의 캡슐이 포함된다. 본 연구에서는 각 캡슐이 실체의 존재 여부를 나타내는 로지스틱 유닛과, 실체와 관찰자 간의 관계(자세, pose)를 학습할 수 있는 4×4 행렬을 갖는 캡슐의 한 형태를 제시한다. 한 층의 캡슐은 자신의 자세 행렬을 가변적인 시점 불변 변환 행렬(Trainable viewpoint-invariant transformation matrices)로 곱함으로써, 위층의 여러 캡슐의 자세 행렬에 투표한다. 이 변환 행렬은 부분-전체 관계를 학습할 수 있도록 설계된다. 각 투표는 할당 계수(assignment coefficient)에 의해 가중된다. 이러한 계수는 각 이미지에 대해 기대-최대화(Expectation-Maximization, EM) 알고리즘을 반복적으로 적용하여 업데이트되며, 각 캡슐의 출력이 유사한 투표를 받는 위층의 캡슐로 라우팅되도록 한다. 변환 행렬은 인접한 캡슐 층 간의 EM 알고리즘 반복 과정을 전개하여(backpropagating through the unrolled iterations of EM) 분류적으로 학습된다. smallNORB 벤치마크에서 캡슐은 최첨단 기술 대비 테스트 오류 수를 45% 감소시켰으며, 기준 컨볼루션 신경망(CNN)에 비해 흰 상자 백색 공격(white box adversarial attacks)에 훨씬 더 강한 저항성을 보였다.