9일 전

합성곱 텐서트레인 LSTM을 통한 공간시적 학습

Jiahao Su, Wonmin Byeon, Jean Kossaifi, Furong Huang, Jan Kautz, Animashree Anandkumar
합성곱 텐서트레인 LSTM을 통한 공간시적 학습
초록

시공간 데이터로부터 학습하는 기술은 인간 행동 분석, 객체 추적, 영상 압축, 물리 시뮬레이션 등 다양한 응용 분야에 활용되고 있다. 그러나 기존의 방법들은 장기 예측과 같은 도전적인 영상 작업에서는 여전히 성능이 낮은 편이다. 이는 이러한 어려운 작업들이 영상 시퀀스 내에서 장기적인 시공간 상관관계를 학습해야 하기 때문이다. 본 논문에서는 이러한 상관관계를 효율적으로 학습하고, 과거 정보를 간결하게 표현할 수 있는 고차원 컨볼루션 LSTM 모델을 제안한다. 이는 시간에 걸쳐 컨볼루션 특징을 결합하여 예측을 수행하는 새로운 텐서 트레인 모듈을 통해 구현된다. 계산 및 메모리 요구량 측면에서 이를 실현 가능하게 하기 위해, 고차원 모델에 대한 새로운 컨볼루션 텐서 트레인 분해 기법을 제안한다. 이 분해 기법은 연속된 컨볼루션 커널들을 동시에 낮은 랭크의 텐서 트레인 분해로 근사함으로써 모델 복잡도를 크게 감소시킨다. 결과적으로, 제안한 모델은 기존 방법들을 능가하는 성능을 보이면서도 파라미터 수가 극히 적으며, 기준 모델들에 비해 매우 적은 양의 파라미터만을 사용한다. 실험 결과, Moving-MNIST-2 및 KTH 행동 데이터셋에서의 다단계 영상 예측, 그리고 Something-Something V2 데이터셋에서의 조기 활동 인식을 포함한 다양한 응용 분야와 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하였다.