이디에티크 3D LSTM: 영상 예측 및 그 이상을 위한 모델

시공간 예측 학습은 오랫동안 자기지도형 특징 학습 방법으로서 유망하다고 여겨져 왔으나, 미래 영상 예측을 넘어서는 효과를 보여주는 경우는 드물다. 그 이유는 단기 프레임 간의 종속성과 장기적인 고수준 관계에 대한 우수한 표현을 동시에 학습하는 것이 어렵기 때문이다. 본 연구에서는 RNN에 3차원 합성곱을 통합한 새로운 모델인 '이데틱 3D LSTM(E3D-LSTM)'을 제안한다. 이 모델은 RNN의 국소적 인식기(퍼셉트론)가 운동 정보를 인식할 수 있도록 하는 3D-Conv를 내장함으로써, 메모리 셀이 더 나은 단기 특징을 저장할 수 있도록 한다. 장기적인 관계를 처리하기 위해, 현재 메모리 상태가 과거 기록들과 게이트 제어형 자기주의(self-attention) 모듈을 통해 상호작용하도록 설계하였다. 이 메모리 전이 메커니즘을 '이데틱(eidetic)'이라고 명명한 이유는, 오랜 시간에 걸친 방해 요인에도 불구하고 여러 시점에 걸쳐 저장된 기억을 효과적으로 회상할 수 있기 때문이다. 먼저 E3D-LSTM 네트워크를 일반적으로 사용되는 미래 영상 예측 데이터셋에서 평가한 결과, 최신 기술(SOTA) 수준의 성능을 달성하였다. 이후 우리는 E3D-LSTM이 단지 제한된 프레임만을 관찰한 후 어떤 행동이 일어나고 있는지 또는 앞으로 어떤 일이 일어날지를 추론하는 조기 행동 인식(early activity recognition) 작업에서도 뛰어난 성능을 보임을 보여주었다. 이 작업은 행동의 의도와 추세를 파악하는 것이 성능 향상에 중요한 요소이므로 영상 예측과 잘 부합한다.