17일 전

학습된 객체 임베딩에 대한 어텐션은 복잡한 시각적 추론을 가능하게 한다

David Ding, Felix Hill, Adam Santoro, Malcolm Reynolds, Matt Botvinick
학습된 객체 임베딩에 대한 어텐션은 복잡한 시각적 추론을 가능하게 한다
초록

신경망은 다양한 지각 작업에서 성공을 거두었지만, 지각과 고급 추론을 동시에 포함하는 작업에서는 종종 실패한다. 이러한 더 도전적인 과제에서는 특정 유형의 작업에 특화된 전용 접근법(예: 모듈형 기호 구성 요소, 독립적인 역학 모델, 의미 구문 분석기 등)이 일반적으로 더 우수한 성능을 보였다. 그러나 이러한 전용 접근법의 단점은 일반적인 신경망보다 더 취약할 수 있다는 점이다. 즉, 특정 과제에 따라 상당한 수정 또는 심지어 전체적인 재설계가 필요할 수 있다. 본 연구에서는 동적 시각 추론 문제에 대한 보다 일반적인 신경망 기반 접근법을 제안하며, 세 가지 서로 다른 도메인에서 최신 기술 수준의 성능을 달성하였다. 특히, 각 도메인에서 특정 과제에 맞게 설계된 전용 모듈형 접근법보다도 더 우수한 성능을 보였다. 본 방법은 학습된 객체 중심 표현(object-centric representations), 자기 주의(self-attention), 그리고 자기지도 역학 학습(self-supervised dynamics learning)에 기반하며, 이 세 가지 요소가 함께 작용할 때에야 강력한 성능이 나타난다. 이러한 조합의 성공은, 공간-시간적 또는 인과적 추론을 포함하는 문제에서 유연성과 성능 사이의 트레이드오프가 필요하지 않을 수 있음을 시사한다. 신경망 내에 적절한 소프트 편향(soft biases)과 학습 목표를 설정한다면, 두 가지 장점을 모두 얻을 수 있을지도 모른다.