Command Palette

Search for a command to run...

20日前

VCode:記号的視覚表現としてのSVGを用いたマルチモーダルコーディングベンチマーク

Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

VCode:記号的視覚表現としてのSVGを用いたマルチモーダルコーディングベンチマーク

要約

エージェント時代において、コードは推論と行動の精密かつ実行可能な媒体として顕著な役割を果たしている。しかし、これまでの進展は主にプログラムの合成やデバッグといった言語中心のタスクに偏っており、視覚中心のコーディングは十分に検討されていない。人間がスケッチをもとに推論する様子に着想を得て、本研究ではSVGコードを、コンパクトで解釈可能かつ実行可能な視覚表現として提唱する。そこで、多モーダル理解をコード生成の枠組みに再定義するベンチマーク「VCode」を導入する。与えられた画像に対して、モデルは後続の推論に適した記号的意味を保持するSVGを生成しなければならない。VCodeは、一般常識(MM-Vet)、専門的分野(MMMU)、視覚中心の認知(CV-Bench)の3つの領域をカバーする。記号的忠実性を評価するために、レンダリングされたSVG上でポリシーモデルが質問に答えるという新しい評価プロトコル「CodeVQA」を提案する。正解が得られることで、記号的意味の忠実な保持が示される。実証的に、最先端のVLM(視覚言語モデル)は忠実なSVGの生成に苦戦しており、言語中心のコーディングと視覚中心のコーディングの間には依然として大きなギャップが存在することが明らかになった。このギャップを埋めるために、VLMを2つの軸で拡張するエージェンティックなフレームワーク「VCoder」を提案する。その2つの特徴は、(i) 修正を伴う思考(Thinking with Revision):不一致を反復的に分析し、SVGコードを段階的に改善するプロセス、および (ii) 視覚ツールを用いた行動(Acting with Visual Tools):モデルの内生的限界を超えて、オブジェクト、形状、テキストなどの構造化された手がかりを提供する検出器とパーサーの活用である。複数のベンチマークにおいて、強力な推論能力を持つ最先端VLMは全体的に高いスコアを示すが、専門知識や3D推論においては依然として限界がある。VCoderは、最良のパフォーマンスを示すClaude-4-Opusに対して、全体で12.3ポイントの向上を達成した。人間実験の結果、人間とVLMの両者ともレンダリングされたSVG上で性能が低下するが、その一貫性は記号的視覚表現の潜在的価値を示唆している。本ベンチマークおよび実装コードは、https://github.com/CSU-JPG/VCode にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VCode:記号的視覚表現としてのSVGを用いたマルチモーダルコーディングベンチマーク | 論文 | HyperAI超神経