2달 전

GigaCheck: LLM 생성 콘텐츠 감지

Tolstykh, Irina ; Tsybina, Aleksandra ; Yakubson, Sergey ; Gordeev, Aleksandr ; Dokholyan, Vladimir ; Kuprashevich, Maksim
GigaCheck: LLM 생성 콘텐츠 감지
초록

대규모 언어 모델(LLM) 기반 비서의 품질과 확산이 증가함에 따라, LLM에서 생성된 콘텐츠의 양이 급속히 늘고 있습니다. 많은 경우와 작업에서 이러한 텍스트는 이미 인간이 작성한 것과 구분할 수 없으며, 생성 품질은 계속해서 개선되고 있는 추세입니다. 그러나 동시에, 탐지 방법은 더 느리게 발전하고 있어 생성형 AI 기술의 부적절한 사용을 막는 것이 어려워지고 있습니다.본 연구에서는 GigaCheck를 제안하며, 생성된 텍스트 탐지 작업을 조사합니다. 우리의 연구는 두 가지 접근 방식을 탐구합니다: (i) 인간이 작성한 텍스트와 LLM에서 생성된 텍스트를 구분하는 것, 그리고 (ii) 인간-기계 협업 텍스트에서 LLM에서 생성된 구간을 탐지하는 것입니다. 첫 번째 작업에 대해서는, 일반 목적 LLM을 활용하여 그 광범위한 언어 능력을 이용해 효과적으로 미세 조정(fine-tuning)하여 LLM 생성 텍스트 탐지를 위한 하류 작업에 적용하였습니다. 이로 인해 제한적인 데이터에서도 높은 성능을 달성할 수 있었습니다. 두 번째 작업에 대해서는 컴퓨터 비전과 자연어 처리 기술을 결합한 새로운 접근 방식을 제안합니다. 특히, 일반 목적 LLM을 미세 조정(fine-tuning)하여 DETR 유사 검출 모델(컴퓨터 비전에서 유래됨)과 함께 사용하여 텍스트 내 AI 생성 구간을 위치 결정(localize)하였습니다.GigaCheck를 영어 텍스트가 포함된 다섯 개의 분류 데이터셋과 인간-기계 협업 텍스트 분석용 세 개의 데이터셋에서 평가하였습니다. 결과는 GigaCheck가 이전 방법들보다 우수하며, 분포 외(out-of-distribution) 환경에서도 강력한 베이스라인을 설정하였음을 보여줍니다.

GigaCheck: LLM 생성 콘텐츠 감지 | 최신 연구 논문 | HyperAI초신경