17일 전
언어 모델은 퍼즐 천재인가? 알고리즘 퍼즐을 통해 다중모달 추론의 심각한 과제가 드러나다
Deepanway Ghosal, Vernon Toh Yan Han, Chia Yew Ken, Soujanya Poria

초록
이 논문은 시각질의 질문 응답(visual question-answering) 맥락 속에서 새로운 다중모달 퍼즐 해결 과제를 제안한다. 우리는 알고리즘적 퍼즐을 해결하는 데 있어 시각적 이해, 언어적 이해 및 복잡한 알고리즘적 추론이 요구되는 다중모달 언어 모델의 능력을 도전하고 평가할 수 있도록 설계된 새로운 데이터셋인 AlgoPuzzleVQA를 제시한다. 이 퍼즐들은 부울 논리, 조합론, 그래프 이론, 최적화, 탐색 등 다양한 수학 및 알고리즘 주제를 포괄하도록 구성되었으며, 시각적 데이터 해석 능력과 알고리즘 문제 해결 능력 사이의 격차를 평가하는 것을 목표로 한다. 본 데이터셋은 인간이 작성한 코드로부터 자동으로 생성된다. 모든 퍼즐은 인간이 번거롭게 계산하지 않고도 알고리즘을 통해 정확한 해를 도출할 수 있도록 구성되어 있으며, 이는 데이터셋의 추론 복잡도와 크기를 임의로 확장할 수 있음을 보장한다. 우리의 실험 결과에 따르면, GPT4V 및 Gemini와 같은 대규모 언어 모델(LLM)은 퍼즐 해결 과제에서 제한된 성능을 보인다. 특히 다수의 퍼즐에 대해 다중 선택 질문 응답 설정에서 성능이 거의 무작위 수준에 가까운 것으로 나타났다. 이러한 결과는 복잡한 추론 문제를 해결하기 위해 시각적, 언어적, 알고리즘적 지식을 통합하는 데 있어 여전히 큰 도전 과제가 존재함을 강조한다.