18일 전
대형 언어 모델의 구성적 일반화 능력을 지시사항 준수 능력을 고려하여 재검토
Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

초록
CommonGen과 같은 생성적 상식 추론 과제에서 대형 언어 모델(LLMs)은 주어진 모든 개념을 포함하는 문장을 구성합니다. 그러나 지시사항 준수 능력을 중심으로 할 때, 프롬프트가 특정 개념 순서를 지정하면 LLMs는 해당 순서에 맞는 문장을 생성해야 합니다. 이를 해결하기 위해, 우리는 LLMs의 조합적 일반화와 지시사항 준수 능력을 평가하기 위한 벤치마크인 순서 CommonGen(Ordered CommonGen)을 제안합니다. 이 벤치마크는 순서별 커버리지를 측정하여 개념이 지정된 순서대로 생성되었는지 평가하며, 두 가지 능력을 동시에 평가할 수 있도록 설계되었습니다. 우리는 36개의 LLMs를 사용하여 포괄적인 분석을 실시한 결과, LLMs가 일반적으로 지시사항의 의도를 이해하고 있지만, 특정 개념 순서 패턴에 대한 편향성이 종종 다양성 부족 또는 개념 순서가 변경되더라도 동일한 결과를 초래한다는 것을 발견했습니다. 또한, 가장 지시사항을 잘 따르는 LLM조차도 약 75%의 순서별 커버리지만 달성했으며, 이는 지시사항 준수 및 조합적 일반화 능력 모두에서 개선이 필요함을 강조합니다.