2달 전
PACS: 물리적 오디오 시각적 상식 추론을 위한 데이터셋
Samuel Yu; Peter Wu; Paul Pu Liang; Ruslan Salakhutdinov; Louis-Philippe Morency

초록
AI가 병원, 학교, 직장 등 실제 환경에서 안전하게 활용되기 위해서는 물리적 세계에 대해 견고한 추론 능력을 가져야 합니다. 이러한 추론의 근간은 물리적 상식: 주어진 객체의 물리적 속성과 사용 가능성을 이해하고, 어떻게 조작할 수 있는지, 그리고 다른 객체와 어떻게 상호 작용하는지를 파악하는 것입니다. 물리적 상식 추론은 본질적으로 다중 감각 작업으로, 물리적 속성은 여러 모달을 통해 나타납니다 - 그 중 두 가지가 시각과 청각입니다. 우리의 논문은 실제 환경에서의 물리적 상식 추론을 위해 PACS(Physics and Acoustics Commonsense)를 기여함으로써 한 걸음을 내딛습니다. PACS는 물리적 상식 속성으로 주석이 달린 최초의 오디오-비주얼 벤치마크입니다. PACS에는 13,400개의 질문-답변 쌍이 포함되어 있으며, 이 중 1,377개의 고유한 물리적 상식 질문과 1,526개의 비디오가 포함되어 있습니다. 우리의 데이터셋은 청각을 이 다중 모달 문제의 핵심 구성 요소로 도입하여 물리적 추론 연구 분야에 새로운 기회를 제공합니다. PACS를 사용하여 우리는 새로운 도전 과제에서 여러 최신 모델들을 평가하였습니다. 일부 모델들은 유망한 결과를 보였지만 (정확도 70%), 모든 모델들이 인간의 성능 (정확도 95%)에 미치지 못했습니다. 논문의 결론에서는 다중 모달 추론의 중요성을 입증하고 미래 연구를 위한 가능한 방향을 제시합니다.