2달 전

LLM을 활용한 제품 속성 값의 추출 및 정규화

Alexander Brinkmann; Nick Baumann; Christian Bizer
LLM을 활용한 제품 속성 값의 추출 및 정규화
초록

전자상거래 웹사이트의 제품 제안은 일반적으로 제품 제목과 텍스트 형태의 제품 설명으로 구성됩니다. 측면별 제품 검색(faceted product search) 기능을 활성화하거나 제품 비교 표를 생성하기 위해서는 비정형적인 제품 제목과 설명에서 구조화된 속성-값 쌍을 추출하고, 각 속성을 단일 통합 척도로 정규화하는 것이 필요합니다. 본 논문에서는 GPT-3.5와 GPT-4와 같은 대형 언어 모델(LLMs)을 사용하여 제품 제목과 설명에서 속성 값들을 추출하고 정규화하는 잠재력을 탐구합니다. 우리는 LLMs에게 속성-값 쌍을 추출하고 정규화하도록 지시하기 위한 다양한 제로샷(zero-shot) 및 소수 샷(few-shot) 프롬프트 템플릿을 실험하였습니다. 우리의 실험을 위해 Web Data Commons - Product Attribute Value Extraction (WDC-PAVE) 벤치마크 데이터셋을 소개합니다. WDC-PAVE는 59개의 다른 웹사이트에서 제공되는 schema.org 주석이 포함된 제품 제안으로 구성되어 있습니다. 이들 제품 제안은 각각 특정 속성 집합을 가진 다섯 가지 다른 제품 카테고리에 속합니다. 데이터셋은 두 가지 형태로 수작업으로 확인된 속성-값 쌍을 제공합니다: (i) 직접 추출된 값들과 (ii) 정규화된 속성 값들입니다. 속성 값들의 정규화는 시스템이 다음과 같은 작업들을 수행해야 합니다: 이름 확장(name expansion), 일반화(generalization), 측정 단위 변환(unit of measurement conversion), 그리고 문자열 처리(string wrangling). 우리의 실험 결과, GPT-4가 SU-OpenTag, AVEQA, MAVEQA와 같은 PLM 기반 추출 방법보다 10% 우수한 성능을 보여주며, F1 점수가 91%를 달성하였습니다. 제품 속성 값의 추출 및 정규화에 있어서 GPT-4는 추출 시나리오와 유사한 성능을 보여주며, 특히 문자열 처리와 이름 확장에서 강점을 보였습니다.

LLM을 활용한 제품 속성 값의 추출 및 정규화 | 최신 연구 논문 | HyperAI초신경