15일 전

MuMiN: 대규모 다국어 다중모달 검증된 허위정보를 포함한 소셜 네트워크 데이터셋

Dan Saattrup Nielsen, Ryan McConville
MuMiN: 대규모 다국어 다중모달 검증된 허위정보를 포함한 소셜 네트워크 데이터셋
초록

가짜 정보는 소셜 미디어와 뉴스 기사에서 점점 더 퍼져나가고 있다. 이에 따라 기계 학습을 활용한 알고리즘적 도구를 통해 이러한 콘텐츠를 탐지할 필요성이 커지고 있다. 이러한 기계 학습 모델을 훈련하기 위해서는 규모, 다양성, 품질이 충분한 데이터셋이 필요하다. 그러나 자동 가짜 정보 탐지 분야의 기존 데이터셋은 주로 단일 언어로 구성되어 있으며, 모달리티(다중 매체 형식)의 종류가 제한적이며, 규모와 품질 면에서 충분하지 못한 실정이다. 이러한 문제를 해결하기 위해 우리는 데이터 수집 및 연결 시스템(MuMiN-trawl)을 개발하여, 공개용 가짜 정보 그래프 데이터셋(MuMiN)을 구축하였다. 이 데이터셋은 2,600개의 트위터 스레드에 속한 2,100만 개의 트윗을 포함하며, 각 트윗은 13,000개 이상의 검증된 진술(claims)과 의미적으로 연결되어 있으며, 수십 가지 주제, 사건, 도메인에 걸쳐 41개 언어로 구성되어 있으며, 10년 이상의 기간을 아우른다. 이 데이터셋은 파이썬 패키지(mumin)를 통해 이질적 그래프 형태로 공개된다. 또한 소셜 미디어 기반 진술의 진위를 판단하는 두 가지 노드 분류 작업에 대한 베이스라인 결과를 제시하며, 이들이 여전히 도전적인 과제임을 입증한다. 두 작업의 최고 마크로 평균 F1 스코어는 각각 62.55%와 61.45%에 달한다. MuMiN 생태계는 https://mumin-dataset.github.io/ 에서 제공되며, 데이터셋, 문서, 튜토리얼, 리더보드 등이 포함되어 있다.

MuMiN: 대규모 다국어 다중모달 검증된 허위정보를 포함한 소셜 네트워크 데이터셋 | 최신 연구 논문 | HyperAI초신경