8일 전

역방향 IFEval: LLM은 고착된 훈련 관례를 잊고 실제 지시를 따를 수 있는가?

Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang
역방향 IFEval: LLM은 고착된 훈련 관례를 잊고 실제 지시를 따를 수 있는가?
초록

대규모 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 뛰어난 성능을 발휘하지만, 지도형 미세조정(Supervised Fine-Tuning, SFT) 과정에서 학습된 표준화된 패턴과 충돌하는 지시사항을 따르는 데 어려움을 겪는 '인지적 관성(cognitive inertia)'을 보이는 경우가 많다. 이 한계를 평가하기 위해 우리는 모델이 학습에 의해 유도된 편향을 극복하고, 적대적 지시사항에 따라 행동할 수 있는 능력—즉, 비직관적 능력(Counter-intuitive Ability)—을 측정하는 벤치마크인 Inverse IFEval을 제안한다. Inverse IFEval은 질문 수정(Question Correction), 고의적 텍스트 오류(Intentional Textual Flaws), 주석 없는 코드(Code without Comments), 그리고 가정적 답변(Counterfactual Answering) 등 총 여덟 가지 유형의 도전 과제를 도입한다. 인간-중개(human-in-the-loop) 파이프라인을 활용하여 23개 영역에 걸쳐 총 1,012개의 고품질 중국어 및 영어 질문 데이터셋을 구축하였으며, 최적화된 LLM-as-a-Judge 프레임워크 하에서 평가하였다. 기존 최첨단 LLM들에 대한 실험 결과는 본 연구에서 제안한 Inverse IFEval 벤치마크의 필요성을 입증하였다. 우리의 연구 결과는 향후 지침 일치(alignment) 연구가 단순히 자연스러움과 사실적 정확성만을 추구하는 것을 넘어서, 비정형적인 맥락 하에서도 적응 가능한 능력을 고려해야 함을 강조한다. Inverse IFEval이 단순한 진단 도구를 넘어, 인지적 관성 완화, 좁은 패턴에 대한 과적합 감소를 위한 방법 개발의 기반으로 활용되길 기대하며, 다양한 예측 불가능한 실제 환경에서 LLM의 지시사항 준수 신뢰도를 향상시키는 데 기여하기를 희망한다.

역방향 IFEval: LLM은 고착된 훈련 관례를 잊고 실제 지시를 따를 수 있는가? | 연구 논문 | HyperAI초신경