Command Palette
Search for a command to run...
Rishub Jain Sophie Bridgers Lili Janzer Rory Greig Tian Huey Teh Vladimir Mikulik

초록
인간의 피드백은 인공지능(AI) 시스템을 인간의 가치에 부합시키는 데 있어 핵심적인 역할을 한다. AI의 능력이 향상되고 더 복잡한 과제를 수행하기 위해 AI가 활용될수록, 품질과 안전성 검증은 점점 더 어려워지고 있다. 본 논문은 AI를 활용하여 인간의 감시 품질을 향상시킬 수 있는 방법을 탐구한다. 특히 인간에게도 여전히 도전적인 안전성 문제인 AI 출력의 사실 확인(fact-verification)에 초점을 맞춘다. 연구 결과, AI 평가자 신뢰도를 기반으로 AI 평가와 인간 평가를 결합하는 것이 단독으로 하나의 평가 방식에 의존하는 것보다 더 우수한 성능을 보였다. 인간에게 AI 사실 확인 보조 도구를 제공하면 정확도가 더욱 향상되지만, 보조 도구의 형태가 중요한 영향을 미친다. AI의 설명, 신뢰도 및 레이블을 표시하는 경우 인간은 과도하게 의존하게 되지만, 검색 결과와 증거만을 제시할 경우 더 적절한 신뢰가 형성된다. 이러한 결과는 ‘증강된 감시(Amplified Oversight)’에 대한 시사점을 제공한다. 즉, 인간 전문가의 성능을 초월하는 AI 시스템을 감시하는 과정에서 인간과 AI를 어떻게 효과적으로 결합할 것인지에 대한 핵심 과제를 제시한다.