
초록
최근 다중 에이전트 문제, 예를 들어 인간의 움직임 예측 및 혼잡한 환경에서의 로봇 내비게이션에서의 주요 발전은 사회적 인식 능력을 갖춘 운동 표현을 학습하는 데에 있다. 비록 긍정적인 성과가 있었지만, 신경망을 통해 학습된 기존의 표현 방식은 폐루프 예측(예: 충돌하는 출력 경로)에서 일반화에 여전히 어려움을 겪고 있다. 이 문제는 순차적 예측의 비-i.i.d.(독립적 동일 분포가 아님) 특성과 불균형한 학습 데이터 분포가 결합되어 발생한다. 직관적으로, 안전한 환경에서의 인간 행동(즉, '긍정적' 예시)만으로 학습 데이터가 구성된다면, 학습 알고리즘이 충돌과 같은 '부정적' 예시의 개념을 포착하기 어렵다. 본 연구에서는 자기지도 학습을 통해 부정적 예시를 명시적으로 모델링함으로써 이 문제를 해결하고자 한다. 구체적으로, (i) 진짜 긍정적 사건과 합성된 부정적 사건을 구별함으로써 추출된 운동 표현을 정규화하는 사회적 대조 손실을 제안하고, (ii) 드물지만 위험한 상황에 대한 사전 지식을 바탕으로 의미 있는 부정적 샘플을 구성한다. 제안하는 방법은 최근의 경로 예측, 행동 클로닝, 강화 학습 알고리즘의 충돌률을 크게 감소시켰으며, 여러 벤치마크에서 최첨단 기법들을 능가하는 성능을 보였다. 본 연구의 코드는 https://github.com/vita-epfl/social-nce 에서 공개되어 있다.