2달 전

노이즈 제거 변환기를 이용한 철자 교정

Alex Kuznetsov; Hector Urdiales

초록

우리는 검색 쿼리나 단일 단어와 같은 짧은 입력 문자열에 대한 철자 교정을 수행하는 새로운 방법을 제시합니다. 이 방법의 핵심은 인간이 나타내는 오류 패턴을 정확히 따르는 인공적인 오타를 생성하는 절차입니다. 이 절차는 트랜스포머 아키텍처 기반의 철자 교정 모델을 훈련시키는 데 사용됩니다. 현재 이 모델은 HubSpot 제품 검색에서 서비스되고 있습니다. 우리는 우리의 오타 생성 접근 방식이 노이즈를 추가하는 일반적인 관행보다 우수하다는 것을 보여주는데, 후자는 인간의 패턴을 무시합니다. 또한, 우리 접근 방식이 자원 부족 환경으로 확장될 수 있는 방법을 설명하고, 어떤 라벨링된 데이터도 사용하지 않고 아랍어, 그리스어, 러시아어, 세츠완어 언어에 대한 철자 교정 모델을 훈련시키는 과정을 소개합니다.