한 달 전

"거짓말쟁이, 거짓말쟁이 바지가 불탔다": 가짜 뉴스 감지 위한 새로운 벤치마크 데이터셋

William Yang Wang

초록

자동 가짜 뉴스 감지는 기만 감지에서 어려운 문제이며, 막대한 현실적인 정치적 및 사회적 영향을 미칩니다. 그러나, 가짜 뉴스와의 싸움에서 통계적 접근 방법은 라벨이 부착된 벤치마크 데이터셋의 부족으로 인해 크게 제한되어 왔습니다. 본 논문에서는 liar(라이어)라는 새로운 공개 데이터셋을 소개합니다. 이 데이터셋은 PolitiFact.com에서 다양한 문맥에서 수동으로 라벨링된 10년간의 12.8천 개의 짧은 문장을 수집하였습니다. 각 사례에 대해 상세한 분석 보고서와 출처 문서 링크를 제공합니다. 이 데이터셋은 사실 확인 연구에도 사용될 수 있습니다. 특히, 이 새로운 데이터셋은 유사한 유형의 기존 가장 큰 공개 가짜 뉴스 데이터셋보다 한 자릿수 이상 더 큽니다. 경험적으로, 우리는 표면 수준 언어 패턴을 기반으로 하는 자동 가짜 뉴스 감지를 조사하였습니다. 우리는 메타데이터와 텍스트를 통합하기 위해 혁신적인 하이브리드 컨볼루션 신경망을 설계하였습니다. 우리는 이 하이브리드 접근 방식이 텍스트만을 사용하는 딥러닝 모델의 성능을 향상시킬 수 있음을 보여주었습니다.