HyperAI

새로운 연구에 따르면, 대규모 언어모델(ChatGPT)은 논문이 재출판되거나 오류가 있는 경우에도 이를 인식하지 못하고, 문헌 리뷰 작성 시 신뢰할 수 없는 정보를 포함할 수 있다는 문제가 드러났다. 워릭 대학의 마이크 테일월 교수와 이리니 카티레아 박사가 공동 연구한 결과는 2025년 'Learned Publishing'에 게재됐다. 연구팀은 알트메트릭스 점수가 높은 217편의 재출판되거나 논란이 있는 논문을 선정해, 각 논문에 대해 ChatGPT가 30번씩 품질을 평가하도록 했다. 총 6,510건의 평가 중 하나도 재출판 사실이나 오류를 언급하지 않았고, 190편은 '세계적 수준' 또는 '국제적으로 뛰어난' 등 높은 평가를 받았다. 가장 낮은 평가를 받은 논문에 대해서도 재출판 여부보다는 학문적 약점만 지적했으며, 다섯 건은 주제가 '논란의 여지가 있다'고 표현했다. 추가 실험에서 재출판된 논문의 61개 주장 중 2/3은 ChatGPT가 '맞다'고 확실히 답했고, 일부는 10년 전 이미 거짓으로 밝혀진 주장도 포함됐다. 연구팀은 "LLM을 정보 탐색이나 분석에 사용할 때 반드시 검증해야 한다"고 강조했다. 테일월 교수는 "결과는 놀라웠고, ChatGPT가 재출판 논문을 인식하지 못하는 것은 매우 우려스럽다. 개발자들이 시스템을 개선하고, 사용자들이 신뢰할 수 없다는 점을 인지하길 바란다"고 말했다.

채팅AI가 논문 재검토 사실 무시…연구자들 "신뢰하기 전 반드시 검증해야"

Related Links