Yiying Yang Wei Cheng Sijin Chen Xianfang Zeng Fukun Yin Jiaxu Zhang Liao Wang Gang Yu Xingjun Ma Yu-Gang Jiang

要約
スケーラブル・ベクターグラフィックス(SVG)は、解像度に依存しない特性と編集可能性から、グラフィックデザイン分野で広く採用されている重要な画像フォーマットである。近年、高品質なSVGの生成に関する研究は、AIGC(人工知能によるコンテンツ生成)分野におけるデザイナーおよび研究者の間で継続的に注目を集めている。しかし、従来の手法は計算コストが非常に高く非構造的な出力を生成するものや、構造が極めて単純化されたモノクロアイコンに限定されるものが多く、複雑な高品質SVGの生成には限界がある。本研究では、高品質かつ複雑なSVGを生成するため、事前学習済みの視覚言語モデル(VLM)を活用したエンドツーエンドのマルチモーダルSVG生成を実現する統合フレームワーク「OmniSVG」を提案する。OmniSVGは、SVGコマンドおよび座標を離散トークンに符号化することで、構造的論理と低レベルの幾何形状を分離し、効率的な学習を可能にしつつ、複雑なSVG構造の表現力を維持している。さらに、SVG合成技術の発展を促進するため、200万件の豊富なアノテーションが付与されたマルチモーダルデータセット「MMSVG-2M」と、条件付きSVG生成タスクにおける標準化された評価プロトコルを新たに提案する。多数の実験結果から、OmniSVGが既存手法を上回る性能を示し、プロフェッショナルなSVGデザインワークフローへの統合可能性も示唆している。