17일 전

비지도 다중모달 언어 표현을 위한 컨볼루션 오토인코더 사용

Panagiotis Koromilas, Theodoros Giannakopoulos
비지도 다중모달 언어 표현을 위한 컨볼루션 오토인코더 사용
초록

다중모달 언어 분석은 다양한 모달리티를 통합하고 시간 정보를 효과적으로 포착해야 하는 두 가지 요구 사항을 수반하기 때문에 연구적으로 도전적인 분야이다. 최근 몇 년간 이 분야에서는 주로 하류 작업에서의 지도 학습 중심의 여러 연구들이 제안되어 왔다. 본 논문에서는 다양한 작업에 적용 가능한 보편적인 다중모달 언어 표현을 비지도 학습 방식으로 추출하는 새로운 접근법을 제안한다. 이를 위해 단어 수준에서 정렬된 다중모달 시퀀스를 2차원 행렬로 변환한 후, 다양한 데이터셋을 결합하여 합성된 표현을 학습하기 위해 합성곱 오토인코더(Convolutional Autoencoders)를 활용한다. 감성 분석(MOSEI) 및 정서 인식(IEMOCAP)에 대한 광범위한 실험 결과에 따르면, 단순한 로지스틱 회귀(Logistic Regression) 알고리즘만을 사용하여도 거의 최첨단 수준의 성능을 달성할 수 있음을 확인하였다. 또한 제안한 방법이 매우 가벼운 구조를 지니고 있으며, 소량의 성능 저하와 거의 동일한 파라미터 수를 유지하면서도 다른 작업 및 미지의 데이터에 쉽게 일반화 가능함을 입증하였다. 제안된 다중모달 표현 모델은 오픈소스로 공개되며, 다중모달 언어 분석 기술의 적용 가능성을 더욱 확장하는 데 기여할 것으로 기대된다.

비지도 다중모달 언어 표현을 위한 컨볼루션 오토인코더 사용 | 최신 연구 논문 | HyperAI초신경