HyperAIHyperAI
il y a 19 jours

IMPACT : Un jeu de données à grande échelle intégré multimodal pour l’analyse et la création de brevets de conception

{Sourav Medya, Sathya N. Ravi, Zhu Wang, Homaira Huda Shomee}
IMPACT : Un jeu de données à grande échelle intégré multimodal pour l’analyse et la création de brevets de conception
Résumé

Dans cet article, nous introduisons IMPACT (Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents), un grand ensemble de données multimodales sur les brevets, comprenant des légendes détaillées pour les figures de brevets d’objets. Notre ensemble de données rassemble un demi-million de brevets d’objets, regroupant 3,61 millions de figures accompagnées de légendes issues de brevets délivrés par l’Office américain des brevets et des marques (USPTO) sur une période de 16 ans, de 2007 à 2022. Nous intégrons aux métadonnées de chaque demande de brevet des légendes précises et cohérentes, reflétant plusieurs points de vue sur les designs. Bien que les brevets contiennent déjà diverses figures de design, titres et descriptions de points de vue, nous constatons qu’ils manquent de descriptions détaillées nécessaires pour mener à bien des tâches multimodales telles que la classification ou la recherche. IMPACT comble cette lacune, offrant ainsi aux chercheurs les éléments essentiels pour concevoir diverses tâches multimodales. Notre ensemble de données présente un fort potentiel pour l’inspiration dans la conception innovante et peut être utilisé conjointement avec des modèles avancés de vision par ordinateur. Nous menons des évaluations préliminaires sur cet ensemble de données pour des tâches classiques d’analyse de brevets, telles que la classification et la recherche. Nos résultats indiquent qu’intégrer des images avec des légendes générées améliore significativement les performances des différents modèles sur ces tâches. Étant donné que les brevets d’objets offrent de nombreux avantages pour la modélisation de nouvelles tâches, nous proposons deux tâches standard de vision par ordinateur, jamais auparavant explorées dans l’analyse des brevets, en tant que perspectives futures, en utilisant IMPACT comme référence : la construction d’images 3D et la réponse à des questions visuelles (Visual Question Answering, VQA). Afin de faciliter la recherche dans ces directions, nous mettons publiquement à disposition notre ensemble de données IMPACT ainsi que le code et les modèles utilisés dans ce travail à l’adresse suivante : https://github.com/AI4Patents/IMPACT.