2달 전

대규모 자기 주석 코퍼스를 위한 조크

Mikhail Khodak; Nikunj Saunshi; Kiran Vodrahalli

초록

우리는 비꼬는 말 연구 및 비꼬는 말 감지 시스템의 훈련과 평가를 위한 대규모 코퍼스인 Self-Annotated Reddit Corpus (SARC)를 소개합니다. 이 코퍼스에는 130만 개의 비꼬는 말 문장이 포함되어 있으며, 이는 기존 데이터셋보다 10배 더 많은 양입니다. 또한 비꼬는 말이 아닌 문장의 인스턴스도 훨씬 더 많이 포함되어 있어, 균형 잡힌 라벨 체제와 불균형한 라벨 체제에서 모두 학습할 수 있습니다. 각 문장은 자주 주석이 달려 있으며(자기 주석화), 비꼬는 말은 독립적인 주석자가 아니라 해당 문장을 작성한 저자가 직접 라벨링하였습니다. 또한 사용자, 주제, 대화 맥락 정보가 제공됩니다. 우리는 이 코퍼스의 정확성을 평가하고, 비꼬는 말 감지 벤치마크를 구축하며, 기준선 방법들을 평가하였습니다.