
초록
최근 딥러닝 모델에 문자(characters)를 토큰화된 텍스트 대신 입력으로 사용할 때의 장점과 상충 요소에 대한 연구가 크게 발전해왔다. 새로운 토큰 없는 모델들은 전통적인 토큰화 단계를 제거하지만, 그 효율성은 여전히 명확하지 않다. 더불어, 시퀀스 태깅 작업에서 토큰화의 영향은 상대적으로 탐구가 부족한 상태이다. 이를 해결하기 위해 본 연구는 문서에서 정보를 추출할 때 토큰화의 영향을 조사하고, 서브워드 기반 모델과 문자 기반 모델 간의 비교 연구 및 분석을 제시한다. 구체적으로, 생물의학 텍스트에서의 정보 추출(Infromation Extraction, IE)을 대상으로 한다. 본 연구의 주요 결과는 두 가지로 요약된다. 첫째, 토큰화 패턴은 유도 편향(inductive bias)을 유발할 수 있으며, 이는 최첨단 성능을 달성하는 데 기여한다. 둘째, 문자 기반 모델은 희망적인 성과를 보이며, 이는 토큰 없는 정보 추출 모델로의 전환 가능성을 시사한다.