인공지능이 연구윤리심의위원회를 보조한다: 효율성과 윤리의 균형을 찾아서
인간 연구 윤리심의위원회(IRB)의 과부하 문제를 해결하기 위해 인공지능(AI) 도입이 급부상하고 있다. 현재 IRB는 수백 페이지에 달하는 연구 제안서를 검토해야 하며, 전문가가 아닌 자원봉사자들이 대부분이어서 심의 과정은 지루하고 비효율적이다. 이에 따라 대규모 언어모델(LLM)을 활용해 제안서의 결함, 법적·윤리적 문제를 사전에 탐지하자는 제안이 나오고 있다. 지난해 연구에서는 GPT-3.5, GPT-4, Claude-Instant 등 4개 모델이 건강 연구 설계의 위험-이익 분석, 참가자 보호 등 핵심 항목에서 오류를 정확히 포착했으며, 최근 발표된 사전연구에서는 GPT-4o와 Gemini 1.5 Pro가 동물 연구 제안서의 모든 문제를 100% 발견했다. 연구자들은 LLM을 IRB의 과거 결정, 정책, 문화적 맥락에 맞게 맞춤형으로 훈련해 정확도를 높이려 하고 있다. 특히 OpenAI o-series, Anthropic Sonnet 등 추론 과정을 투명하게 보여주는 모델을 활용하면 ‘흑상자’ 문제를 완화할 수 있다. 또 외부 정책 문서를 기반으로 답변을 제한해 허구적 출력을 줄이는 기술도 도입된다. 목표는 인간 심의자 대신 AI를 대체하는 것이 아니라, 반복적이고 기초적인 검토 업무를 대신해 복잡한 윤리 판단에 집중할 수 있도록 돕는 것이다. 그러나 전문가들 사이에는 우려도 제기된다. AI에 대한 과도한 의존은 심의의 깊이를 떨어뜨릴 수 있으며, 훈련 데이터에 내재된 편향이 문제를 악화시킬 수 있다. 특히 상업적 IRB는 속도와 수익을 우선시할 수 있어, AI를 효율성 도구로 악용할 가능성도 있다. 글로벌 남부 지역의 IRB는 자원이 부족해 AI 도입이 시급하지만, 서구 기준의 데이터로 훈련된 모델은 지역적 문화와 윤리 기준을 반영하지 못할 수 있다. 연구자들은 AI 도구를 개방형 또는 기관별로 로컬 서버에서 운영하는 방향으로 전환하려 하고 있다. 이는 데이터 보안과 투명성 확보에 기여할 수 있다. 그러나 일부 전문가는 “IRB는 알고리즘이 아닌, 사람들의 신중한 논의 과정이어야 한다”며 인간의 판단이 지닌 본질적 가치를 경고한다. AI는 보조 도구일 뿐, 윤리적 판단의 중심은 여전히 인간에 있다.