2달 전

MAVE: 다중 출처 속성 값 추출을 위한 제품 데이터셋

Li Yang; Qifan Wang; Zac Yu; Anand Kulkarni; Sumit Sanghai; Bin Shu; Jon Elsas; Bhargav Kanagal
MAVE: 다중 출처 속성 값 추출을 위한 제품 데이터셋
초록

속성 값 추출은 제품 정보에서 관심 있는 속성의 값을 식별하는 작업을 의미합니다. 제품 속성 값은 고객 서비스 로봇, 제품 순위 결정, 검색 및 추천 등 많은 전자상거래 시나리오에서 필수적입니다. 그러나 실제 세계에서는 제품의 속성 값이 종종 불완전하며 시간에 따라 변동하기 때문에, 이는 실용적인 응용을 크게 방해합니다. 본 논문에서는 제품 속성 값 추출 연구를 보다 효과적으로 지원하기 위한 새로운 데이터셋인 MAVE를 소개합니다. MAVE는 아마존 페이지에서 수집된 220만 개의 제품으로 구성되어 있으며, 1257개의 고유 카테고리에 걸쳐 300만 개의 속성-값 주석을 포함하고 있습니다. MAVE는 네 가지 주요하고 독특한 장점을 가지고 있습니다: 첫째, MAVE는 속성-값 예제 수로 볼 때 가장 큰 제품 속성 값 추출 데이터셋입니다. 둘째, MAVE는 제품의 다중 출처 표현을 포함하여 높은 속성 커버리지를 통해 완전한 제품 정보를 포착합니다. 셋째, MAVE는 이전 데이터셋들이 다루지 않았던보다 다양한 속성과 값을 나타냅니다. 마지막으로, MAVE는 실험을 통해 경험적으로 입증된 매우 어려운 제로샷 테스트 세트를 제공합니다. 우리는 또한 다중 출처 제품 정보에서 효과적으로 속성 값을 추출하는 새로운 접근법을 제안합니다. 우리는 여러 베이스라인과 함께 광범위한 실험을 수행하여 MAVE가 속성 값 추출 작업에 효과적인 데이터셋임을 보여주며, 특히 제로샷 속성 값 추출 작업에서도 매우 도전적인 과제임을 확인하였습니다. 데이터셋은 {\it \url{https://github.com/google-research-datasets/MAVE}}에서 이용 가능합니다.

MAVE: 다중 출처 속성 값 추출을 위한 제품 데이터셋 | 최신 연구 논문 | HyperAI초신경