
초록
트위터는 온라인 대화에 참여하고, 사용자 생성 콘텐츠의 중요성을 인식한 다양한 학문 분야의 연구 자료로 부상하였습니다. 논증 마이닝은 온라인 담론을 처리하고 이해하는 데 중요한 분석 작업입니다. 특히, 이 작업은 정보와 추론으로 표시되는 논증의 구조적 요소를 식별하는 것을 목표로 합니다. 그러나 이러한 요소들은 정적인 것이 아니며, 대화 내에서 문맥이 필요할 수 있습니다. 그럼에도 불구하고 트위터에서 이러한 동적인 측면을 다루는 데이터와 주석 프레임워크가 부족합니다. 우리는 TACO(트위터 논증 데이터셋)를 제공하여, 이를 보완합니다. 이 데이터셋은 6명의 전문가들 사이에서 0.718의 크리펜도르프 알파(Krippendorff's alpha) 일치도를 가진 6개의 이질적인 주제에 걸친 200개의 전체 대화를 포함하는 1,814개의 트윗을 활용합니다. 두 번째로, 우리는 캠브리지 사전(Cambridge Dictionary)에서 가져온 정의를 포함하여 트위터에서 논증 구성요소를 정의하고 식별하기 위한 주석 프레임워크를 제공합니다. 우리의 변환기 기반 분류기는 논증 탐지를 위해 85.06%의 매크로 F1 베이스라인 점수를 달성하였습니다. 또한, 우리의 데이터는 트위터 사용자들이 정보와 추론을 포함한 토론에 참여하는 경향이 있음을 보여줍니다. TACO는 추론과 정보 요소에 따라 트윗을 관리하기 위한 트윗 분류기 훈련뿐만 아니라, 트윗 간 회신 패턴에 대한 귀중한 통찰력을 제공하는 등 여러 목적에 활용될 수 있습니다.