16일 전
CLUZH는 SIGMORPHON 2022에서의 모르페마 분할 및 불변 생성 공동 과제에 참가하였다.
{Peter Makarov, Simon Clematide, Silvan Wehrli}

초록
이 논문은 취리히 대학교 계산언어학과 팀이 SIGMORPHON 2022 공동 과제인 형태소 분할 및 변화형 생성에 제출한 결과를 설명한다. 우리 팀의 제출물은 전통적인 편집 동작(edit actions)을 기반으로 작동하는 문자 수준의 신경형 전이기(nerual transducer)를 사용한다. 이 모델은 저자원 환경에서 특히 효과적이라는 점이 이미 확인되었으나, 대량의 데이터를 활용하는 데는 어려움이 있었다. 기존 구현체는 GPU 가속의 이점을 충분히 활용하지 못했으며, 전이 기반 시스템에서 복잡할 수 있는 미니배치 학습(mini-batch training)도 효율적으로 구현하지 못했다. 올해 제출을 위해 우리는 신경형 전이기를 PyTorch로 이식하고 진정한 미니배치 학습을 구현하였다. 이를 통해 대규모 데이터에 대한 접근이 가능해졌으며, 광범위한 실험을 수행할 수 있었다. 형태소 분할 과제에서는 경쟁력 있는 성과를 보였으며(특히 도전 과제의 2부에서 공동 1위를 기록), 문장 수준의 형태소 분할 문제를 단어 수준의 문제로 축소하는 전략이 간단하면서도 효과적임을 입증하였다. 또한 변화형 생성 과제에서도 강력한 성과를 달성하였으며, 1부에서는 대규모 학습 데이터를 사용한 전체 최고 성능을 기록하였고, 2부에서는 저자원 학습 경로에서 최고 성능을 달성하였다. 우리 팀의 코드는 공개되어 있다.