9일 전

시각적 시퀀스 학습을 위한 딥 레디얼 임베딩

{Xilin Chen, Xiujuan Chai, Lei Lei, Xiaotao Wang, Yanan Li, Peiqi Jiao, Yuecong Min}
시각적 시퀀스 학습을 위한 딥 레디얼 임베딩
초록

Connectionist Temporal Classification (CTC)는 시퀀스 인식 분야에서 널리 사용되는 목적 함수로, 시퀀스와 해당 레이블링 간의 반복적인 정렬을 통해 분할되지 않은 시퀀스 데이터에 대한 지도 학습을 제공한다. CTC의 빈(blank) 클래스는 정렬 과정에서 핵심적인 역할을 하며, 일반적으로 CTC의 피크 현상(peaky behavior)을 초래하는 원인으로 여겨진다. 본 연구에서는 CTC의 반복적 정렬 메커니즘을 유지하면서 시퀀스 특징을 초구면(hypersphere) 위에 제약하는 목적 함수인 RadialCTC를 제안한다. 각 비-빈(non-blank) 클래스의 학습된 특징은 빈 클래스의 중심으로부터 반경 방향의 호(radial arc)에 분포하게 되어, 명확한 기하학적 해석을 제공하며 정렬 과정의 효율성을 높인다. 또한 RadialCTC는 빈 클래스의 로짓(logit)을 단순히 수정함으로써 피크 현상을 효과적으로 제어할 수 있다. 인식 및 위치 추정에 대한 실험 결과를 통해 RadialCTC가 두 가지 시퀀스 인식 응용 분야에서 효과적임을 입증하였다.