19日前

IMPACT: 設計特許における大規模統合マルチモーダル分析・創出データセット

{Sourav Medya, Sathya N. Ravi, Zhu Wang, Homaira Huda Shomee}
IMPACT: 設計特許における大規模統合マルチモーダル分析・創出データセット
要約

本稿では、デザイン特許図面に対する詳細なキャプションを備えた大規模なマルチモーダル特許データセット「IMPACT(Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents)」を紹介する。このデータセットは、2007年から2022年までの16年間に米国特許商標庁(USPTO)が付与した特許に含まれる、合計50万件のデザイン特許と、それらに含まれる361万枚の図面および関連キャプションを収録している。各特許出願のメタデータに加え、設計の複数の視点に整合した一貫性のある詳細なキャプションを付与することで、従来の特許文書が持つ図面、題名、視点記述の多様性を活かしつつも、分類や検索といったマルチモーダルタスクに必要な詳細な記述が不足しているという課題を補完している。IMPACTはこのギャップを埋めることで、多様なマルチモーダルタスクを実装するための重要な要素を研究者に提供する。本データセットは、新たな設計インスピレーションを生み出す可能性に富んでおり、先進的なコンピュータビジョンモデルと併用して活用できる。本研究では、分類や検索といった代表的な特許分析タスクに対する初期評価を実施した結果、画像と生成されたキャプションを統合することで、さまざまなモデルの性能が顕著に向上することが示された。デザイン特許が新しいタスクモデリングにおいて多様な利点を提供することを踏まえ、IMPACTをベンチマークとして用い、今後の研究方向として未だ特許分析において検討がなされていない2つの標準的なコンピュータビジョンタスク、すなわち3D画像構築および視覚的質問応答(Visual Question Answering: VQA)を提案する。これらの研究分野を促進するために、IMPACTデータセットおよび本研究で使用したコード・モデルを、https://github.com/AI4Patents/IMPACT にて公開している。