
초록
CNNs(Deep Convolutional Neural Networks)는 사진에서의 객체 검출 성능을 크게 향상시켰습니다. 그러나 예술 작품에서의 객체 검출에 대한 연구는 아직 제한적입니다. 본 연구에서는 사진, 만화, 그리고 41개의 다른 예술 운동에서 사람들을 포함하는 도전적인 데이터셋인 People-Art에서 최신 기술 수준의 성능을 보여줍니다. 우리는 이 높은 성능을 이 작업에 맞게 CNN을 미세 조정(fine-tuning)함으로써 달성하였습니다. 이를 통해 사진에서 CNN을 학습시키면 사진에 과적합(overfitting)되는 경향이 있다는 점도 입증되었습니다: 사진에서 예술 작품으로 전이되는 것은 처음 세 개 또는 네 개의 층뿐입니다. CNN의 성능이 지금까지 가장 높지만, 여전히 60% AP(Average Precision)를 넘지 못하고 있어, cross-depiction 문제에 대해 더 많은 연구가 필요하다는 것을 시사합니다. 최종 출판물은 Springer를 통해 http://dx.doi.org/10.1007/978-3-319-46604-0_57에서 이용 가능합니다.