AI 생성 문장 탐지: 인간-AI 협업 하이브리드 텍스트에서의 도전, 전략 및 통찰력

이 연구는 인간과 AI가 협력하여 작성한 하이브리드 텍스트 내에서 문장 단위로 AI 생성 텍스트를 감지하는 문제를 탐구합니다. 기존의 하이브리드 텍스트에 대한 AI 생성 텍스트 감지 연구는 대부분 합성 데이터셋을 사용합니다. 이러한 데이터셋은 일반적으로 제한된 수의 경계를 포함하는 하이브리드 텍스트를 다룹니다. 우리는 하이브리드 텍스트 내에서 AI 생성 콘텐츠를 감지하는 연구가 실제 환경에서 생성된 다양한 유형의 하이브리드 텍스트를 포함해야 한다고 주장합니다. 이를 통해 실제 응용 프로그램에 더 효과적으로 정보를 제공할 수 있습니다. 따라서, 본 연구에서는 인간 저자와 지능형 작문 시스템이 여러 차례의 상호작용을 통해 공동으로 작성한 다양한 현실적인 하이브리드 텍스트가 포함된 CoAuthor 데이터셋을 활용합니다.우리는 두 단계의 분할 기반 파이프라인을 채택하였습니다: (i) 주어진 하이브리드 텍스트 내에서 각 분할이 일관된 저작권을 가진 문장들로 구성되는 부분을 감지하고, (ii) 식별된 각 분할의 저작권을 분류합니다. 우리의 경험적 결과는 다음과 같은 점들을 강조합니다: (1) 하이브리드 텍스트 내에서 AI 생성 문장을 감지는 전반적으로 어려운 작업입니다. 이는 (1.1) 인간 저자가 개인적인 선호도에 따라 AI 생성 문장을 선택하거나 심지어 수정함으로써 분할의 저작권 식별을 어렵게 만들기 때문이며, (1.2) 인접한 문장 간에 저작권 변화가 빈번하게 발생하여 분할 감지기가 일관된 저작권을 가진 분할을 식별하는 데 어려움을 겪기 때문이며, (1.3) 하이브리드 텍스트 내의 짧은 길이의 텍스트 분할은 신뢰성 있는 저작권 결정에 필요한 스타일적 단서를 제한적으로 제공하기 때문입니다; (2) 감지 과정에 착수하기 전, 하이브리드 텍스트 내 분할들의 평균 길이를 평가하는 것이 유익하다는 점입니다. 이 평가는 (2.1) 긴 분할을 가진 하이브리드 텍스트에는 텍스트 분할 기반 전략을 사용하거나, (2.2) 짧은 분할을 가진 하이브리드 텍스트에는 직접 문장별로 분류하는 전략을 채택해야 하는지를 결정하는 데 도움을 줍니다.