15일 전

텍스트 표현의 분리 학습을 위한 상호정보의 새로운 추정기

Pierre Colombo, Chloe Clavel, Pablo Piantanida
텍스트 표현의 분리 학습을 위한 상호정보의 새로운 추정기
초록

텍스트 데이터의 분리 표현(Disentangled Representations) 학습은 공정한 분류, 스타일 전이, 문장 생성 등 다양한 자연어 처리 작업에서 필수적이다. 기존의 주류 접근 방식은 일반적으로 잠재 코드로부터 속성 값을 추론하기 어렵게 만들기 위해 적대적 모델(판별자, discriminator)을 학습시키는 방식이나, 잠재 코드와 속성 값 간의 상호정보량(Mutual Information)에 대한 변분 상한을 최소화하는 방식을 사용한다. 그러나 이러한 기존 방법들은 분리 정도(또는 강도)에 대한 세밀한 제어가 불가능하다는 한계를 가지고 있다. 적대적 방법과는 달리, 이는 학습 과정에서는 매우 간단하고 효과적으로 작동하지만, 학습이 완료된 후에도 원하지 않는 속성에 대한 상당한 정보가 여전히 잠재 코드에 남아 있는 문제가 있다. 본 논문은 인코더의 잠재 코드와 속성 간의 상호정보량에 대한 새로운 변분 상한을 제안한다. 이 상한은 Renyi의 발산을 통해 근사 오차를 제어함으로써, 더 나은 분리 표현을 얻을 뿐만 아니라, 텍스트 데이터에 적용된 최신 기법들보다 더 정밀한 분리 정도 조절이 가능하다. 또한 다중 클래스 상황에서 다른 손실 함수들이 겪는 열화(degeneracy) 문제를 피할 수 있다. 제안된 방법의 우수성을 공정한 분류 및 텍스트 스타일 전이 작업에서 입증하였으며, 분리 표현을 학습할 때 스타일 전이의 다양한 트레이드오프와 생성 문장의 품질 간의 관계에 대해 새로운 통찰을 제공한다.

텍스트 표현의 분리 학습을 위한 상호정보의 새로운 추정기 | 최신 연구 논문 | HyperAI초신경