HyperAIHyperAI
vor 19 Tagen

IMPACT: Ein großskaliges integriertes multimodales Patentanalyse- und -erstellungs-Datenset für Designpatente

{Sourav Medya, Sathya N. Ravi, Zhu Wang, Homaira Huda Shomee}
IMPACT: Ein großskaliges integriertes multimodales Patentanalyse- und -erstellungs-Datenset für Designpatente
Abstract

In diesem Paper führen wir IMPACT (Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents) ein, einen großskaligen multimodalen Patentdatensatz mit detaillierten Beschriftungen für Gestaltungsfiguren von Erfindungspatenten. Unser Datensatz umfasst eine halbe Million Gestaltungsbezeichnungen, die insgesamt 3,61 Millionen Figuren enthalten, sowie zugehörige Beschreibungen aus Patenten, die zwischen 2007 und 2022 von der United States Patent and Trademark Office (USPTO) erteilt wurden. Wir integrieren die Metadaten jedes Patentantrags mit ausführlichen, mehrperspektivisch konsistenten Beschreibungen, die verschiedene Aspekte der Gestaltung abdecken. Obwohl Patente selbst eine Vielzahl an Gestaltungsfiguren, Titeln und Beschreibungen von Designperspektiven enthalten, stellen wir fest, dass sie fehlende detaillierte Beschreibungen aufweisen, die für multimodale Aufgaben wie Klassifizierung und Retrieval unerlässlich sind. IMPACT schließt diese Lücke und stellt Forschern die notwendigen Grundlagen zur Durchführung verschiedener multimodaler Aufgaben zur Verfügung. Unser Datensatz bietet großes Potenzial für kreative Gestaltungsinspiration und kann mit fortschrittlichen Computer-Vision-Modellen effektiv kombiniert werden. Wir führen vorläufige Evaluationen auf dem Datensatz für etablierte Aufgaben im Bereich Patentanalyse wie Klassifizierung und Retrieval durch. Unsere Ergebnisse zeigen, dass die Integration von Bildern mit generierten Beschreibungen die Leistung verschiedener Modelle auf diesen Aufgaben signifikant verbessert. Da Gestaltungsbezeichnungen vielfältige Vorteile für die Modellierung neuer Aufgaben bieten, schlagen wir zwei standardisierte Computer-Vision-Aufgaben vor, die bisher in der Patentanalyse nicht untersucht wurden, und stellen IMPACT als Benchmark für zukünftige Forschung vor: 3D-Bildkonstruktion und Visual Question Answering (VQA). Um die Forschung in diesen Richtungen zu fördern, stellen wir den IMPACT-Datensatz sowie den verwendeten Code und die Modelle öffentlich unter https://github.com/AI4Patents/IMPACT zur Verfügung.