Command Palette
Search for a command to run...
SheetDesigner:ルールベースおよびビジョンベースのリフレクションを活用したMLLM駆動型スプレッドシートレイアウト生成
SheetDesigner:ルールベースおよびビジョンベースのリフレクションを活用したMLLM駆動型スプレッドシートレイアウト生成
Qin Chen Yuanyi Ren Xiaojun Ma Mugeng Liu Han Shi Dongmei Zhang
概要
スプレッドシートは、情報伝達を効率的に行うために豊富で構造的なレイアウトを持つデータ中心のタスクにおいて不可欠な役割を果たしている。手動によるスプレッドシートレイアウト設計には時間と専門知識が要されるため、自動化された解決策の導入が急務である。しかし、既存の自動レイアウトモデルはスプレッドシートに適していない。その理由は、(1) モジュールを連続座標を持つ軸方向に整列した長方形として扱うため、スプレッドシート特有の離散的でグリッド構造を持つ性質を無視していること、および (2) スプレッドシートに特有の相互関連する意味構造、例えばデータ依存性や文脈的リンクを無視していることにある。本論文では、まずスプレッドシートレイアウト生成タスクを形式化し、7項目の評価基準と3,326枚のスプレッドシートから構成されるデータセットを用いてその有効性を検証する。次に、マルチモーダル大規模言語モデル(MLLM)を活用し、ルールと視覚的フィードバックを統合するゼロショットかつ学習不要なフレームワーク「SheetDesigner」を提案する。この手法は5つのベースラインと比較して、少なくとも22.6%の性能向上を達成した。さらに、視覚モダリティを介することでMLLMは重複の処理やバランスの調整には優れているが、整列(アライメント)には苦戦することが明らかになった。これにより、ハイブリッドなルールベースと視覚的フィードバックを組み合わせた戦略の必要性が示された。本研究のコードおよびデータはGitHubにて公開されている。