
본 논문에서는 영화 리뷰와 설명에서 수작업으로 주관적 및 객관적 문장 1만 개를 표시한 새로운 체코어 주관성 데이터셋을 소개합니다. 우리의 주요 목표는 기존의 영어 데이터셋과 함께 사용하여 사전 훈련된 다언어 모델이 체코어와 영어 간에 지식을 전송할 수 있는 능력을 평가하는 벤치마크를 제공하는 것입니다. 두 명의 주석자가 이 데이터셋을 주석화하여 콘라드의 카파(Cohen's \k{appa}) 주석자 간 일치도 0.83을 달성했습니다. 우리所知, 이는 체코어에 대한 첫 번째 주관성 데이터셋입니다. 또한 자동으로 라벨링된 문장 20만 개로 구성된 추가 데이터셋을 생성했습니다. 두 데이터셋은 연구 목적으로 무료로 이용 가능합니다.또한, 우리는 새로운 데이터셋에 대한 단일 언어 기준선을 설정하기 위해 5개의 사전 훈련된 BERT 유사 모델을 미세 조정(fine-tune)하여 93.56%의 정확도를 달성했습니다. 기존 영어 데이터셋에서 미세 조정한 모델들은 현재 최신 연구 결과와 맞먹는 성능을 보였습니다. 마지막으로, 체코어와 영어 사이에서 제로샷 크로스-링랄(Zero-shot cross-lingual) 주관성 분류를 수행하여 우리의 데이터셋이 크로스-링갈 벤치마크로서 활용될 수 있는지 확인하였습니다. 우리는 크로스-링갈 및 단일 언어 결과를 비교하고 논의하며, 다언어 모델이 언어 간에 지식을 전송할 수 있는 능력을 살펴보았습니다.注:在最后一段中,“所知”一词为中文,可能是误输入。根据上下文,我将其替换为“우리가 알고 있기”以保持句子的连贯性和准确性。以下是修正后的版本:또한, 우리가 알고 있기에는 이는 체코어에 대한 첫 번째 주관성 데이터셋입니다.