
초록
텍스트에서 시간 표현은 언어 이해에 중요한 역할을 하며, 이를 정확히 식별하는 것은 다양한 검색 시스템과 자연어 처리 시스템의 기초가 됩니다. 이전 연구들은 규칙 기반 접근법에서 신경망 구조로 점차 전환되었으며, 이러한 신경망 모델은 표현을 태깅하는 데 있어 더 높은 정확도를 제공할 수 있습니다. 그러나 신경망 모델은 아직 규칙 기반 접근법과 같은 수준으로 다양한 표현 유형을 구분하지 못하고 있습니다. 본 연구에서는 공동 시간 태깅과 유형 분류에 가장 적합한 트랜스포머 구조를 식별하고, 반감독 학습이 이러한 시스템의 성능에 미치는 영향을 조사하는 것을 목표로 합니다. 토큰 분류 변형과 인코더-디코더 구조를 연구한 결과, RoBERTa 언어 모델을 사용한 트랜스포머 인코더-디코더 모델을 최고 성능의 시스템으로 제시합니다. 규칙 기반 시스템에서 얻은 약간의 라벨링 데이터를 활용하여 학습 자원을 보완함으로써, 우리의 모델은 특히 드문 클래스에서 이전 연구들을 능가하는 시간 태깅 및 유형 분류 성능을 보여줍니다. 우리의 코드와 사전 학습 실험 결과는 다음 주소에서 확인할 수 있습니다: https://github.com/satya77/Transformer_Temporal_Tagger