18일 전
REBUS: 기호 이해에 대한 강건한 평가 기준
{Michelle Hung, Lydia La Roux, Jonathan Chiang, Joe Cavanagh, Irina Gritsevskaya, Hans Gundlach, Derik Kauffman, Aaron Kirtland, Arjun Panickssery, Andrew Gritsevskiy}

초록
우리는 다중모달 대규모 언어 모델의 재버 퍼즐 해결 능력을 평가하는 새로운 벤치마크를 제안한다. 이 데이터셋은 영화, 작곡가, 주요 도시, 음식 등 13개의 카테고리에 해당하는 333개의 원본 이미지 기반 어휘 놀이 예제를 포함하고 있다. 이 벤치마크에서 퍼즐이 암시하는 단어나 구문을 정확히 식별하기 위해 모델은 이미지 인식과 문자열 조작을 가설 검증, 다단계 추론, 그리고 인간 인지에 대한 이해와 결합해야 하며, 이는 복잡한 다중모달 능력 평가를 가능하게 한다. 우리의 분석 결과, GPT-4o는 모든 다른 모델을 크게 앞서며, 독점 모델들이 다른 평가 대상 모델들을 모두 압도하는 것으로 나타났다. 그러나 가장 우수한 모델조차도 최종 정확도가 단지 42%에 불과하며, 어려운 퍼즐에서는 이 수치가 고작 7%까지 하락함을 확인했다. 이는 추론 능력에 있어 근본적인 개선이 필요함을 시사한다. 또한 모델들은 퍼즐의 모든 요소를 이해하는 경우가 거의 없으며, 정답을 후속적으로 설명하는 능력 역시 거의 없는 것으로 나타났다. 따라서 본 벤치마크는 다중모달 대규모 언어 모델의 지식과 추론 능력에서 나타나는 주요한 한계를 식별하는 데 유용하게 활용될 수 있다.