2달 전

MiVOLO: 다중 입력 트랜스포머를 이용한 연령 및 성별 추정

Kuprashevich, Maksim ; Tolstykh, Irina
MiVOLO: 다중 입력 트랜스포머를 이용한 연령 및 성별 추정
초록

야외 환경에서 연령과 성별 인식은 매우 어려운 과제입니다: 조건의 다양성, 자세의 복잡성, 그리고 이미지 품질의 차이 외에도 얼굴이 부분적으로 또는 완전히 가려져 있는 경우가 있습니다. 우리는 최신 비전 트랜스포머를 활용한 연령과 성별 추정을 위한 간단한 접근 방법인 MiVOLO (Multi Input VOLO)를 제시합니다. 본 방법은 두 가지 입력/출력 모델을 통합하여 얼굴 정보뿐만 아니라 사람 이미지 데이터도 활용함으로써 모델의 일반화 능력을 향상시키고, 이미지에서 얼굴이 보이지 않는 경우에도 만족할 만한 결과를 제공할 수 있게 합니다. 제안된 모델을 평가하기 위해 네 개의 유명 벤치마크에서 실험을 수행하였으며, 최고 수준의 성능을 달성하면서 실시간 처리 능력을 입증하였습니다.또한, Open Images Dataset에서 가져온 이미지를 기반으로 새로운 벤치마크를 소개합니다. 이 벤치마크의 정답 주석은 인간 주석자들이 세심하게 생성하였으며, 투표 결과를 지능적으로 집계함으로써 높은 정확도를 달성하였습니다. 또한, 우리 모델의 연령 인식 성능을 인간 수준의 정확도와 비교하여 대부분의 연령대에서 인간보다 크게 우수하다는 것을 입증하였습니다. 마지막으로, 검증 및 추론용 코드와 함께 우리의 모델에 대한 공개 접근 권한을 부여하며, 사용된 데이터셋에 대한 추가 주석을 제공하고 새로운 벤치마크를 소개합니다.