2달 전

MovingFashion: 비디오-숍 과제를 위한 벤치마크

Marco Godi; Christian Joppi; Geri Skenderi; Marco Cristani
MovingFashion: 비디오-숍 과제를 위한 벤치마크
초록

소셜 미디어 비디오(인스타그램, 틱톡)에서 착용된 의류를 검색하는 것은 전자 패션의 최신 영역으로, 컴퓨터 비전 문헌에서는 "비디오 투 샵(video-to-shop)"이라고 알려져 있습니다. 본 논문에서는 이 도전 과제를 해결하기 위한 첫 번째 공개 데이터셋인 MovingFashion을 소개합니다. MovingFashion은 14,855개의 소셜 비디오로 구성되어 있으며, 각 비디오는 해당 의류 아이템이 명확하게 표현된 전자 상거래 "샵" 이미지와 연관되어 있습니다. 또한, 이 시나리오에서 샵 이미지를 검색하기 위한 네트워크인 SEAM Match-RCNN을 제시합니다. 이 모델은 이미지-비디오 도메인 적응(image-to-video domain adaptation)을 통해 학습되며, 샵 이미지와의 연관성만 주어진 비디오 시퀀스를 사용할 수 있게 하여 수백만 개의 주석화된 바운딩 박스가 필요 없는 환경을 제공합니다. SEAM Match-RCNN은 임베딩(embedding)을 구축하며, 소셜 비디오의 몇 개 프레임(10개)에 대한 주의 기반 가중합(attention-based weighted sum)이 14,000개 이상의 샵 요소 갤러리에서 최초 5개 검색 결과 내에 올바른 제품을 식별하는 데 80%의 정확도를 제공합니다. 이는 관련 최신 연구 접근법과 대안적 베이스라인들과 비교하여 MovingFashion에서 가장 우수한 성능을 보이는 것으로 확인되었습니다.

MovingFashion: 비디오-숍 과제를 위한 벤치마크 | 최신 연구 논문 | HyperAI초신경