2달 전

행동 및 사람-물체 상호작용에 대한 학습 모델과 질문 응답으로의 전이

Arun Mallya; Svetlana Lazebnik
행동 및 사람-물체 상호작용에 대한 학습 모델과 질문 응답으로의 전이
초록

본 논문은 여전히 이미지에서 인간 활동 라벨 예측을 위해 로컬 및 글로벌 컨텍스트를 활용하는 딥 컨볼루션 네트워크 모델을 제안합니다. 이 모델들은 각각 수백 개의 라벨을 가진 두 개의 최신 데이터셋에서 최고 수준의 성능을 달성하였습니다. 우리는 개인 인스턴스 수준의 감독 부족을 처리하기 위해 다중 인스턴스 학습(Multiple Instance Learning)을 사용하였으며, 불균형한 훈련 데이터를 처리하기 위해 가중 손실(Weighted Loss)을 적용하였습니다. 또한, 이러한 데이터셋에서 학습된 전문적인 특징들이 시각적 질문 응답(Visual Question Answering, VQA) 작업에서 정확도를 향상시키는 방법을 보여주며, 이는 선택지 형태의 공백 채우기 질문(Visual Madlibs)으로 표현됩니다. 구체적으로, 우리는 사람 활동과 사람-물체 관계에 대한 두 가지 유형의 질문을 다루고, ImageNet 분류 작업에서 학습된 일반적인 특징들보다 우수한 성능 향상을 보여주었습니다.

행동 및 사람-물체 상호작용에 대한 학습 모델과 질문 응답으로의 전이 | 최신 연구 논문 | HyperAI초신경