Command Palette
Search for a command to run...
Chengzhi Xu Yuyang Wang Lai Wei Lichao Sun Weiran Huang

要約
最近、マルチモーダル大規模言語モデル(Multimodal Large Language Models: MLLMs)は、その強力な視覚理解能力により研究者の注目を集めています。これらのモデルは様々な視覚タスクで優れた結果を達成していますが、チャートからコードの生成(chart-to-code generation)における性能はまだ最適ではありません。このタスクでは、与えられたチャートを再現する実行可能なコードを生成することが求められ、正確な視覚理解だけでなく、視覚要素を構造化されたコードに正確に翻訳する能力も必要です。MLLMsにこの複雑なタスクを直接指示すると、しばしば満足のいく結果を得ることができません。 この課題に対処するために、我々は{ChartIR}という反復改良手法を提案します。これは構造化された指示に基づいています。まず、2つのタスク:視覚理解とコード翻訳を区別します。視覚理解の部分を達成するために、我々は2種類の構造化された指示を設計しました:説明と差異。説明指示は参照チャートの視覚要素を捉え、差異指示は参照チャートと生成されたチャートとの違いを特徴づけます。これらの指示は効果的に視覚的な特徴を言語表現に変換し、その後のコード翻訳プロセスを容易にします。 次に、全体的なチャート生成パイプラインを2段階に分解します:初期コード生成と反復改良。これにより最終出力を段階的に向上させることができます。実験結果によると、オープンソースモデルQwen2-VLとクローズドソースモデルGPT-4oの両方において、他の方法と比較して我々の方法が優れた性能を示しています。