
초록
프로그램은 의미론적 정보와 구조적 정보로 구성되어 있으며, 인간과 에이전트 간의 의사소통에서 중요한 역할을 합니다. 일반적인 프로그램 실행자를 학습하여 지각, 추론, 그리고 결정 과정을 통합하기 위해, 주어진 프로그램을 관찰된 작업 사양에 따라 실행하는 것을 요구하는 프로그램 안내형 작업을 정식화합니다. 또한, 우리는 크로스 어텐션과 마스크된 자기 어텐션을 활용하여 작업 사양과 프로그램 내 루틴 사이의 메시지를 전달함으로써 프로그램의 의미론적 및 구조적 안내를 통합하는 Program-guided Transformer (ProTo)를 제안합니다. ProTo는 학습된 잠재 공간에서 프로그램을 실행하며, 이전의 신경-기호 접근 방식보다 더 강력한 표현 능력을 가지고 있습니다. 우리는 GQA 시각 추론 데이터셋과 2D Minecraft 정책 학습 데이터셋에서 ProTo가 이전 최신 방법들을 크게 능가함을 보여주며, 또한 ProTo가 미처 본 적 없는 복잡하고 인간이 작성한 프로그램에 대해 더 나은 일반화 능력을 보임을 입증하였습니다.