IMPACT: 디자인 특허를 위한 대규모 통합 다중모달 특허 분석 및 생성 데이터셋

이 논문에서는 디자인 특허 도면에 대한 세부적인 설명을 포함하는 대규모 다중모달 특허 데이터셋인 IMPACT(Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents)을 소개한다. 본 데이터셋은 2007년부터 2022년까지 미국 특허상표청(USPTO)에서 부여한 디자인 특허 50만 건을 포함하며, 총 361만 개의 도면과 함께 각 도면에 대한 상세한 설명문을 제공한다. 각 특허 출원의 메타데이터를 포함하여, 디자인의 다양한 시각적 관점에 부합하는 일관성 있는 설명문을 구현하였다. 비록 특허 문서 자체가 다양한 디자인 도면, 제목 및 시각적 관점에 대한 설명을 포함하고 있으나, 분류 및 검색과 같은 다중모달 작업을 수행하기 위해 필요한 세부적인 설명이 부족함을 발견하였다. IMPACT는 이러한 격차를 메우며, 연구자들이 다양한 다중모달 작업을 구현할 수 있도록 필수적인 자료를 제공한다. 본 데이터셋은 새로운 디자인 영감을 제공할 잠재력이 크며, 고급 컴퓨터 비전 모델과 함께 활용될 수 있다. 우리는 분류 및 검색과 같은 대표적인 특허 분석 작업에 대해 본 데이터셋을 기반으로 예비 평가를 수행하였으며, 이미지와 생성된 설명문을 통합함으로써 다양한 모델의 성능이 크게 향상됨을 확인하였다. 디자인 특허가 새로운 작업 모델링에 다양한 이점을 제공함을 고려하여, IMPACT를 기준으로 향후 연구 방향으로 3D 이미지 생성과 시각적 질의 응답(VQA)이라는 두 가지 표준 컴퓨터 비전 작업을 제안한다. 이러한 연구 방향을 촉진하기 위해, 본 연구에서 사용한 IMPACT 데이터셋 및 코드·모델을 공개하여 https://github.com/AI4Patents/IMPACT 에서 누구나 접근할 수 있도록 제공한다.