2달 전

FOSNet: 장면 인식을 위한 엔드투엔드 학습 가능한 딥 뉴럴 네트워크

Hongje Seong; Junhyuk Hyun; Euntai Kim
FOSNet: 장면 인식을 위한 엔드투엔드 학습 가능한 딥 뉴럴 네트워크
초록

장면 인식은 이미지가 촬영된 장소의 범주를 예측하는 이미지 인식 문제입니다. 본 논문에서는 합성곱 신경망(CNN)을 사용한 새로운 장면 인식 방법을 제안합니다. 제안된 방법은 주어진 이미지 내의 객체와 장면 정보의 융합에 기반하며, 이 CNN 프레임워크는 FOS(객체와 장면의 융합) Net으로 명명되었습니다. 또한, FOSNet을 훈련시키고 장면 인식 성능을 개선하기 위해 새로운 손실 함수인 장면 일관성 손실(SCL, Scene Coherence Loss)이 개발되었습니다. 제안된 SCL은 '장면성'이 확산되고 이미지 전체에서 장면 클래스가 변하지 않는다는 장면의 고유한 특성을 바탕으로 합니다. 제안된 FOSNet은 세 가지 가장 유명한 장면 인식 데이터셋에서 실험되었으며, 두 개의 데이터셋에서 최신 성능을 달성했습니다: Places 2에서는 60.14%, MIT Indoor 67에서는 90.37%입니다. SUN 397에서는 두 번째로 높은 성능인 77.28%를 얻었습니다.

FOSNet: 장면 인식을 위한 엔드투엔드 학습 가능한 딥 뉴럴 네트워크 | 최신 연구 논문 | HyperAI초신경