
초록
엔드투엔드 시스템에서 텍스트 표현을 구축하는 것은 자연어가 매우 구성적이고 작업별로 주석이 달린 데이터셋의 크기가 종종 제한적이기 때문에 어려울 수 있습니다. 언어 구성을 직접 감독하는 방법은 기존 지식에 기반하여 모델을 안내하고, 더 견고하고 해석 가능한 표현으로 정규화할 수 있게 합니다. 본 논문에서는 다양한 세분화 단위에서 목적함수를 사용하여 더 나은 언어 표현을 학습하는 방법을 조사하며, 문장과 토큰을 동시에 라벨링하기 위한 아키텍처를 제안합니다. 각 단계에서의 예측 결과는 어텐션 메커니즘을 통해 결합되며, 토큰 단위 라벨은 문장 단위 표현의 구성을 위한 명시적인 감독 역할도 수행합니다. 실험 결과, 여러 단계에서 이들 작업을 공동으로 학습함으로써 모델이 문장 분류와 시퀀스 라벨링 모두에서 실질적인 개선을 이루었음을 보여줍니다.