텍스트 문서를 위한 변분 딥 의미 해싱(Variational Deep Semantic Hashing for Text Documents)

지난 10년 동안 텍스트 데이터의 양이 급속히 증가함에 따라, 효율적인 유사성 검색 방법은 대규모 정보 검색 시스템의 핵심 구성 요소가 되었습니다. 인기 있는 전략 중 하나는 해싱을 통해 원본 데이터 샘플을 압축된 이진 코드로 표현하는 것입니다. 다양한 기계 학습 방법들이 활용되었지만, 효과적인 표현을 학습하기 위한 모델링에서 표현력과 유연성이 부족한 경우가 많았습니다. 최근 딥러닝의 광범위한 응용 분야에서의 발전은 복잡한 데이터에 대한 강력하고 견고한 특징 표현을 학습할 수 있는 능력을 입증하였습니다. 특히, 딥 제너레이티브 모델은 확률적 생성 모델의 표현력과 딥 뉴럴 네트워크의 고용량을 자연스럽게 결합하여 텍스트 모델링에 매우 적합합니다. 그러나 텍스트 해싱을 위해 최근 딥러닝의 진보를 활용한 연구는 아직 많이 이루어지지 않았습니다.본 논문에서는 텍스트 해싱을 위한 일련의 새로운 딥 문서 생성 모델들을 제안합니다. 첫 번째 제안된 모델은 비지도 학습 방식이며, 두 번째 모델은 문서 라벨/태그를 활용하여 지도 학습 방식으로 수행됩니다. 세 번째 모델은 단어 생성에 영향을 미치는 문서 특유의 요인들을 추가로 고려합니다. 제안된 모델들의 확률적 생성 공식화는 모델 확장, 불확실성 추정, 시뮬레이션 및 해석 가능성에 대한 원칙적인 프레임워크를 제공합니다. 변분 추론과 재매개화(reparameterization) 기법을 기반으로 하여, 제안된 모델들은 인코더-디코더 구조의 딥 뉴럴 네트워크로 해석될 수 있으며 따라서 원본 문서의 복잡한 비선형 분산 표현을 학습할 수 있습니다. 우리는 네 개의 공개 테스트베드에서 포괄적인 실험 집합을 수행하였으며, 실험 결과는 제안된 지도 학습 모델들이 텍스트 해싱에 있어 효과성을 입증하였습니다.