본 연구의 주요 목적은 다양한 공동체 내 언어 사용과 그에 연결된 이념적 서사 간의 관계를 포괄적으로 이해하는 것이다. 특히, 타겟 폭력과 관련된 비정형 공동체가 사용하는 암시적 또는 암호화된 언어 내부에 숨겨진 서사들을 식별하기 위해 자연어 처리(Natural Language Processing) 기법을 활용한다. 기존 연구들은 설문 조사, 사용자 연구 및 텍스트 기사 내용 기반의 제한된 수의 접근을 통해 이념적 소속을 탐지해왔으나, 여전히 레이블 관리(label curation)가 필요했다. 이전 연구들은 이념적 레이블 관리를 위해 레디트(Reddit)의 이념 하위 커뮤니티(r/Liberal 및 r/Conservative)를 활용하여 해당 커뮤니티에 공유된 기사들을 각각 자유주의 및 보수주의 이념에 따라 레이블링했으나, 데이터셋의 규모가 제한적이었다.이전 연구의 성과를 바탕으로, 본 연구는 레디트 하위 커뮤니티의 이념을 기반으로 공유된 기사들을 분류한다. 보수 및 자유주의 클래스 외에도, 제한된(리스트된), 비공개 또는 금지된 커뮤니티(예: r/TheDonald)에서 공유된 기사들을 포함하는 새로운 클래스인 ‘제한된(Restricted)’ 클래스를 도입한다. ‘제한된’ 클래스는 보수 또는 자유주의 소속 여부와 무관하게 폭력과 관련된 게시물을 포함한다. 또한, 자유주의 클래스와 보수주의 클래스에 각각 자가 정체성을 밝힌 커뮤니티(r/progressive 및 r/askaconservative)에서 수집한 기사들을 데이터셋에 보완함으로써, 보다 포괄적인 데이터 확보를 도모한다. 그 결과, 총 377,144건의 텍스트 기사로 구성된 확장된 데이터셋을 구축하였으며, 이는 자유주의 기사 72,488건, 보수주의 기사 79,573건, 제한된 클래스 기사 225,083건으로 구성된다. 본 연구의 목표는 다양한 이념 공동체 간의 언어적 차이를 분석하고, 특히 미리 보지 못한 사례(922,522건의 텍스트 기사)에서 기사의 방향성을 판단하는 데 있어 키워드의 관련성을 탐구하며, 극단화된 공동체를 심층적으로 분석하고 결과를 체계적으로 해석하는 것이다.