Command Palette
Search for a command to run...
Yang Wang Chenghao Xiao Chia-Yi Hsiao Zi Yan Chang Chi-Li Chen Tyler Loakman Chenghua Lin

초록
우리는 '드라이벨로지(Drivelology)'라 불리는 독특한 언어 현상을 소개한다. 이는 '깊이 있는 난센스(nonsense with depth)'로 특징지어지는 현상으로, 문법적으로는 일관성을 갖추지만, 실용적으로는 모순적이거나, 정서적으로는 무게감이 있으며,修辞적으로는 기존 질서를 도전하는 발언을 의미한다. 이러한 표현들은 표면적으로는 난센스처럼 보일 수 있지만, 맥락적 추론, 도덕적 판단, 또는 정서적 해석을 필요로 하는 암묵적인 의미를 내포하고 있다. 우리는 현재의 대규모 언어 모델(Large Language Models, LLMs)이 자연어 처리(NLP) 과제에서 뛰어난 성능을 보임에도 불구하고, 드라이벨로지적 텍스트의 다층적 의미 구조를 일관되게 이해하지 못함을 발견했다. 이를 탐구하기 위해, 영어, 중국어, 스페인어, 프랑스어, 일본어, 한국어 등 다양한 언어로 구성된 1,200개 이상의 정교하게 수집된 예시로 구성된 소규모이지만 다양한 벤치마크 데이터셋을 구축하였다. 특히 각 예시에 대한 주석 작업은 매우 도전적이었으며, 드라이벨로지의 특성을 진정으로 반영하고 있는지 확인하기 위해 전문가의 철저한 검토가 필요했다. 의견 차이를 해소하기 위해 여러 차례의 토론과 심의 과정을 거치며, 드라이벨로지가 미묘하고 주관적인 특성을 지닌다는 점이 부각되었다. 우리는 다양한 LLMs를 분류, 생성, 추론 과제에서 평가하였다. 그 결과, LLMs의 명백한 한계가 드러났다. 모델들은 드라이벨로지를 표면적인 난센스와 혼동하거나, 일관되지 않은 정당화를 생성하며, 혹은 암묵적인 수사적 기능을 완전히 간과하는 경우가 많았다. 이러한 발견은 LLMs의 실용적 이해 능력에 존재하는 심층적인 표현적 격차를 드러내며, 통계적 유창성(Statistical fluency)이 인지적 이해를 의미한다는 전제를 도전한다. 우리는 향후 표면적 일관성 이상의 언어적 깊이를 모델링하는 연구를 촉진하기 위해 본 데이터셋과 코드를 공개한다.