Command Palette

Search for a command to run...

2ヶ月前

大規模言語モデルを用いた記号的グラフィカルプログラミング

Yamei Chen Haoquan Zhang Yangyi Huang Zeju Qiu Kaipeng Zhang Yandong Wen Weiyang Liu

大規模言語モデルを用いた記号的グラフィカルプログラミング

要約

大規模言語モデル(LLM)はプログラム合成において優れた性能を発揮するが、正確な視覚的コンテンツをレンダリング可能な記号的グラフィックスプログラム(SGP)を生成する能力については、依然として十分に調査されていない。本研究では、自然言語による記述からSGPを生成するというタスクに注目する。このタスクは、SGPから生成された画像を提示することで、LLMが視覚世界をどのように理解しているかを観察するための有効なアプローチともなる。本研究で取り扱うSGPの種類として、スケーラブルベクターグラフィックス(SVG)に限定する。まず、LLMがSGPをどれほど正確に生成できるかを検証するため、対象の忠実度、シーンの忠実度、および構成性(属性の束縛、空間関係、数的表現)をカバーする包括的なベンチマーク「SGP-GenBench」を導入する。SGP-GenBenchにおける実験結果から、最先端の閉鎖型モデルがオープンソースモデルを大きく上回り、性能は一般的なコーディング能力と良好な相関関係にあることが明らかになった。このギャップを埋めるべく、LLMによるSGP生成能力の向上を目指す。そこで、検証可能な報酬を用いた強化学習(RL)アプローチを提案する。本手法では、出力形式の妥当性を保証する「フォーマット有効性ゲート」により、レンダリング可能なSVGを生成することを確保し、強力な視覚エンコーダー(例えば、テキスト-画像間の一致にSigLIP、画像-画像間の一致にDINOを用いる)を用いたクロスモーダル報酬により、テキストとレンダリング画像の整合性を高める。このアプローチをQwen-2.5-7Bに適用した結果、SVG生成の品質と意味的正確性が著しく向上し、最先端システムと同等の性能を達成した。さらに、学習ダイナミクスを分析した結果、RLによって(i)物体が制御可能な基本形状に細かく分解され、(ii)文脈に応じた詳細が追加され、シーン全体の整合性が向上することが明らかになった。本研究の結果は、記号的グラフィックスプログラミングがクロスモーダルの接地(grounding)を精密かつ解釈可能な視点から捉える有力な手段であることを示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
大規模言語モデルを用いた記号的グラフィカルプログラミング | 論文 | HyperAI超神経