2달 전

논의 표식을 활용한 비지도 문장 표현 학습

Damien Sileo; Tim Van-De-Cruys; Camille Pradel; Philippe Muller
논의 표식을 활용한 비지도 문장 표현 학습
초록

현재 자연어 처리(NLP) 분야의 최신 시스템들은 비용이 많이 드는 수작업으로 주석화된 데이터셋에 크게 의존하고 있습니다. 주석화되지 않은 데이터 -- 문장 간의 담화 표지와 같은 것들 -- 를 효과적으로 활용하는 연구는 거의 이루어지지 않았는데, 이는 데이터 부족과 비효율적인 추출 방법 때문입니다. 본 연구에서는 관련 담화 표지를 자동으로 발견하는 방법을 제안하며, 이를 대규모 데이터에 적용하였습니다. 그 결과, 각각 최소 1만 개의 예시를 포함하는 174개의 담화 표지를 포함한 데이터셋을 생성하였으며, 'coincidentally' 또는 'amazingly'와 같이 희귀한 담화 표지까지도 포함되었습니다. 우리는 이 결과물을 통해 얻은 데이터를 전이 가능한 문장 임베딩 학습을 위한 지도자료로 사용하였습니다. 또한, 담화 표지를 예측하여 문장 표현을 학습하는 방법이 다양한 전이 작업에서 최고의 성능을 보임에도 불구하고, 우리의 모델이 문장 간의 의미적 관계를 활용했는지는 명확하지 않다는 점을 보여주었습니다. 이로 인해 추가적인 개선 여지가 남아 있습니다. 우리의 데이터셋은 공개되어 있습니다 (https://github.com/synapse-developpement/Discovery).

논의 표식을 활용한 비지도 문장 표현 학습 | 최신 연구 논문 | HyperAI초신경