NeSyCoCo: 구성 일반화를 위한 신경심상적 개념 컴포저

구성 일반화는 인공지능 에이전트가 복잡한 시각-언어 추론 과제를 해결하는 데 있어 핵심적인 요소이다. 신경-심볼릭 접근법은 구성 구조를 효과적으로 포착할 수 있는 잠재력을 보여주고 있으나, 다음과 같은 핵심적 도전 과제에 직면해 있다: (a) 심볼릭 표현에 대해 미리 정의된 술어(predicate)에 의존함으로써 유연성에 제한이 있으며, (b) 원시 데이터로부터 술어를 추출하는 데 어려움이 있으며, (c) 기본 개념을 결합하는 과정에서 미분 불가능한 연산을 사용한다는 점이다. 이러한 문제들을 해결하기 위해, 대규모 언어 모델(Large Language Models, LLMs)을 활용하여 심볼릭 표현을 생성하고 이를 미분 가능한 신경계산으로 매핑하는 신경-심볼릭 프레임워크인 NeSyCoCo를 제안한다. NeSyCoCo는 다음과 같은 세 가지 혁신을 도입한다: (a) 자연어 입력에 의존 구조(dependency structures)를 보완하여 심볼릭 표현과의 정렬을 강화하고, (b) 분산 단어 표현(distributed word representations)을 활용하여 다양한 언어학적으로 유의미한 논리적 술어를 신경 모듈과 연결하며, (c) 정규화된 술어 점수의 소프트 조합(soft composition)을 사용하여 심볼릭 추론과 미분 가능한 추론 간의 일치를 도모한다. 제안된 프레임워크는 ReaSCAN 및 CLEVR-CoGenT 구성 일반화 벤치마크에서 최신 기준(SOTA) 성능을 달성하였으며, CLEVR-SYN 벤치마크에서 새로운 개념에 대해 뛰어난 견고한 성능을 보여주었다.