Command Palette
Search for a command to run...
Samarth Goel Reagan J. Lee Kannan Ramchandran

초록
대규모 언어 모델(LLM)이 기존 벤치마크에서 뛰어난 성능을 보이고 있는 가운데, 의미 이해의 깊이 있는 측면을 탐구할 수 있는 더 도전적인 평가 프레임워크의 필요성이 절실해지고 있다. 본 연구에서는 임베딩 모델과 유사도 측정 지표를 평가하기 위해 설계된 엄격한 벤치마크인 SAGE(Semantic Alignment & Generalization Evaluation)를 제안한다. SAGE는 인간 선호도 일치, 변환 내성, 정보 민감도, 군집 성능, 검색 내성의 다섯 가지 범주에서 종합적으로 평가할 수 있도록 구성되어 있다. 기존 벤치마크가 고립된 능력에 집중하는 반면, SAGE는 30개 이상의 데이터셋을 대상으로 적대적 조건, 노이즈가 있는 변환, 세부적인 인간 판단 과제를 통해 의미 이해 능력을 평가한다. 9종의 임베딩 모델과 전통적인 유사도 측정 지표를 포괄적으로 평가한 결과, 각 차원에서 두드러진 성능 격차가 확인되었으며, 어떤 한 가지 접근 방식도 모든 측면에서 우수한 성능을 보이지 못했다. 예를 들어, OpenAI의 text-embedding-3-large와 같은 최첨단 임베딩 모델은 인간 선호도 일치 측면에서 뛰어난 성능을 보이며(0.682, 최고 전통적 지표 0.591), 정보 민감도 과제에서는 전통적 지표가 압도적으로 우세한 것으로 나타났다. 이 경우, 자카르드 유사도(Jaccard Similarity)는 0.905의 점수를 기록한 반면, 최고의 임베딩 모델은 0.794에 그쳤다. SAGE는 또한 중요한 성능 간 상충 관계를 드러냈다. OpenAI의 text-embedding-3-small는 군집 성능에서 최고 점수(0.483)를 기록했지만, 내성성 측면에서는 가장 낮은 점수(0.011)를 기록하며 극도로 취약함을 보였다. SAGE는 현재의 의미 이해 능력에 존재하는 핵심적인 한계를 드러내며, 실제 적용 환경에서 모델의 내성성과 신뢰성을 보다 현실적으로 평가할 수 있는 기반을 제공한다.