연구: 2024년 AI가 13.5% 논문 작성에 영향
대규모 연구에서 수백만 건의 과학 논문에 인공지능(AI)의 흔적 발견 2024년에 특정 단어들의 빈도가 증가한 모습을 보여줍니다. (A) 2024년 빈도와 빈도 비율(r)입니다. 두 축 모두 로그 스케일로 표시되어 있으며, 시각적 명료성을 위해 일부 포인트만 라벨링되었습니다. 점선은 임계값을 나타냅니다(본문 참조). r > 90인 단어들은 r = 90에서 표시됩니다. 잉여 단어들은 내용 단어(파란색)와 스타일 단어(주황색)로 수기로 주석이 달렸습니다. (B) 같은 그래프지만 수직축은 빈도 간격(δ)을 나타냅니다. δ > 0.05인 단어들은 δ = 0.05에서 표시됩니다. 출처: Science Advances (2025). DOI: 10.1126/sciadv.adt3813 최근에는 대형 언어 모델(Large Language Model, LLM)들이 생성한 온라인 콘텐츠를 알지 못한 채 접하는 경우가 많아졌습니다. 챗GPT와 구글 젬니 등 LLM들이 인간처럼 almost 완벽한 글쓰기를 할 수 있게 되면서, 순수하게 인간이 작성한 콘텐츠와 LLM이 수정하거나 완전히 생성한 콘텐츠를 구분하기가 점점 더 어려워지고 있습니다. 이런 저작권 문제의 급증은 학술 커뮤니티에서 AI 생성 콘텐츠가 동료 심사 논문으로 몰래 들어오고 있다는 우려를 불러일으켰습니다. 이를 밝히기 위해 미국과 독일의 연구팀은 1500만 건 이상의 바이오메디컬 초록을 분석하여 저널 기사에서 LLM이 특정 단어 선택에 미친 영향을 파악했습니다. 연구 결과, LLM들이 등장한 이후 특정 스타일 단어의 사용 빈도가 크게 증가한 것으로 나타났습니다. 이 데이터는 2024년에 발표된 논문 중 최소 13.5%가 LLM 처리를 통해 작성되었음을 시사합니다. 이 연구 결과는 Science Advances 저널에 공개되었습니다. 챗GPT가 출시된 지 3년이 채 되지 않은 현재, 인터넷상에서 AI와 LLM 콘텐츠의 사용이 폭발적으로 증가하여 일부 연구의 정확성과 윤리성에 대한 우려가 제기되고 있습니다. 그러나 과거 LLM 사용량을 측정하려는 노력은 인간이 작성한 텍스트와 LLM이 생성한 텍스트 집합에 의존하면서, "과학자들이 어떤 모델을 사용했는지, 어떻게 프롬프트를 입력했는지"에 대한 가정을 필요로 하여 편향성이 발생할 수 있었습니다. 이번 연구에서는 이러한 한계를 피하기 위해, 챗GPT 공개 전후의 특정 단어 사용 패턴 변화를 분석했습니다. 이 방법은 이전 코로나19 공중보건 연구에서 팬데믹 전후의 사망률 변화를 추론하는 데 사용된 접근 방식을 모델로 삼았습니다. 연구팀은 LLM 도입 후 "내용 단어"의 과다 사용에서 "스타일적이고 화려한" 단어 선택으로의 명확한 변화를 발견했습니다. 예를 들어 "전시", "중추적인", "해결해야 하는" 등의 단어 사용이 증가했습니다. 연구진이 각 과다 사용 단어에 부사를 수동으로 할당한 결과, 2024년 이전에는 과다 사용 단어의 79.2%가 명사였으나, 2024년에는 66%가 동사이고 14%가 형용사로 변한 것이 확인되었습니다. 또한 연구 분야, 국가, 출판 장소별로 LLM 사용에 대한 눈에 띄는 차이점도 발견되었습니다. 업계 전문가들은 이번 연구 결과가 AI가 학술 문헌에 어느 정도 영향을 미치고 있는지를 명확히 보여준다고 평가합니다. 그러나 이 연구는 LLM 사용의 정확한 범위를 측정하는 데 있어 여전히 한계가 있다고 지적합니다. 예를 들어, 모든 과학자가 LLM을 동일한 방식으로 사용하지 않으며, 일부 과학자는 LLM을 사용하지 않을 수도 있기 때문입니다. 이 연구는 AI가 학술 연구에 미치는 영향을 이해하는 데 중요한 단초를 제공하며, 미래의 연구 방향과 정책 결정에 큰 도움이 될 것으로 기대됩니다. 연구팀은 LLM이 과학 저술에 미치는 영향을 지속적으로 모니터링할 필요성을 강조하고 있습니다.