2달 전

이미지에서 사회적 관계 인식을 위한 다중 세분화 추론

Meng Zhang; Xinchen Liu; Wu Liu; Anfu Zhou; Huadong Ma; Tao Mei
이미지에서 사회적 관계 인식을 위한 다중 세분화 추론
초록

이미지에서 사회적 관계를 발견하는 것은 기계가 인간의 행동을 더 잘 해석할 수 있게 합니다. 그러나 이미지에서 사회적 관계를 자동으로 인식하는 것은 시각적 콘텐츠와 사회적 관계 사이에 큰 차이가 있기 때문에 어려운 과제입니다. 기존 연구들은 얼굴 표현, 신체 외관, 맥락적 객체 등의 다양한 특징을 개별적으로 처리하기 때문에 다중 세분화 의미론(예: 장면, 사람들의 지역적 힌트, 사람과 객체 간의 상호작용)을 포괄적으로 포착하지 못합니다. 이러한 영역 간 차이를 극복하기 위해, 우리는 이미지에서 사회적 관계를 인식하기 위한 다중 세분화 추론 프레임워크를 제안합니다. 전반적인 지식과 중간 수준의 세부 정보는 각각 전체 장면과 사람 및 객체의 지역에서 학습됩니다. 가장 중요한 점은, 우리는 사람들의 미세한 세분화 포즈 키포인트(fine-granularity pose keypoints)를 탐색하여 사람과 객체 간의 상호작용을 발견합니다. 구체적으로, 포즈 안내된 사람-객체 그래프(Pose-guided Person-Object Graph)와 사람-포즈 그래프(Pose-guided Person-Pose Graph)를 제안하여 각각 사람이 객체에 대한 행동과 짝을 이루는 사람들 간의 상호작용을 모델링합니다. 이 그래프들을 바탕으로 그래프 컨볼루셔널 네트워크(graph convolutional networks)를 통해 사회적 관계 추론이 수행됩니다. 마지막으로, 전역 특징과 추론된 지식을 통합하여 사회적 관계 인식을 위한 포괄적인 표현을 생성합니다. 두 개의 공개 데이터셋에 대한 광범위한 실험 결과는 제안된 프레임워크의 효과성을 입증하였습니다.

이미지에서 사회적 관계 인식을 위한 다중 세분화 추론 | 최신 연구 논문 | HyperAI초신경