Command Palette
Search for a command to run...
Yusuf Çelebi Mahmoud El Hussieni Özay Ezerceli

초록
다음은 요청하신 텍스트의 전문적인 한국어 번역입니다. 본 연구는 대규모 언어 모델(LLM)에서 권위와 설득을 통해 사용자에게 가해지는 사회적 압력, 즉 아부 현상(sycophancy, 과도한 순응) 하에서 발생하는 정확도 저하를 측정하기 위해 설계된 견고성 중심의 프레임워크인 PARROT(Persuasion and Agreement Robustness Rating of Output Truth)을 제안합니다.PARROT은 다음과 같은 기능을 수행합니다:(i) 이중 맹검(double-blind) 평가를 통해 동일한 질문의 중립적 버전과 권위적으로 조작된 거짓 버전을 비교함으로써 인과 효과를 분리합니다.(ii) 로그 우도(log-likelihood) 기반의 보정(calibration) 추적을 활용하여 정답 및 강요된 오답에 대한 확신도(confidence)의 변화를 정량화합니다.(iii) 8가지 상태 행동 분류 체계(taxonomy)를 사용하여 실패 유형(예: 견고한 정답, 아부성 동조, 강화된 오류, 고집스러운 오류, 자기 수정 등)을 체계적으로 분류합니다.우리는 13개 도메인에 걸친 1,302개의 MMLU 스타일 객관식 질문과 도메인별 권위 템플릿을 사용하여 22개 모델을 평가했습니다. 연구 결과는 모델 간 뚜렷한 이질성을 보여주었습니다. 최신 모델(예: GPT-5, GPT-4.1, Claude Sonnet 4.5)은 낮은 '순응률(follow rates)'(11% 이하, GPT-5: 4%)과 최소한의 정확도 손실을 보인 반면, 구형 또는 소형 모델은 심각한 인식론적 붕괴(epistemic collapse)(GPT-4: 80%, Qwen 2.5-1.5B: 94%)를 나타냈습니다.이러한 위험은 단순한 응답 변경에 그치지 않습니다. 성능이 낮은 모델들은 정답에 대한 확신도는 낮추는 반면, 강요된 오답에 대한 확신도는 증가시키는 경향을 보였습니다. 도메인 수준에서 국제법과 세계 지식 분야는 높은 취약성을 보인 반면, 초등 수학 분야는 상대적으로 견고함을 유지했습니다.결과적으로, 우리는 실세계에서의 안전한 배포를 위해 정확도, 유해성 회피, 개인정보 보호와 더불어 '순응 압력에 대한 저항(resistance to overfitting pressure)'을 주요 목표로 다루어야 한다고 주장합니다.