HyperAIHyperAI

Command Palette

Search for a command to run...

SpatialClaw: エージェント型空間推論のためのアクションインターフェースの再考

概要

物体の位置、相互の関係、および3次元空間内での動きを把握する能力である空間推論は、ビジョン・ランゲージモデル(VLMs)にとって依然として根本的な課題である。ツール拡張型 agents は、VLMs に専門的な知覚モジュールを組み込むことでこの課題に対処しようとするが、それらのツールが呼び出されるアクションインターフェースによってその有効性は制約される。本研究では、このインターフェースの設計が agent のオープンエンドな空間推論能力にどのように影響を与えるかを調査する。既存の空間 agents は、中間結果が観測される前に完全な分析戦略を決定する単一パスのコード実行を採用するか、操作の自由な組み合わせや各タスクへの分析の適応において柔軟性に欠ける構造化されたツール呼び出しインターフェースに依存する。いずれの設計も、オープンエンドかつ複雑な3D/4D空間推論に対して限られた柔軟性しか提供しない。本研究では、コードをアクションインターフェースとして採用する学習不要の空間推論フレームワークであるSpatialClawを提案する。SpatialClawは、入力フレームと一連の知覚・幾何学プリミティブが事前に読み込まれたステートフルなPythonカーネルを維持し、VLMに支援された agent が過去のすべての出力を条件として1ステップごとに1つの実行可能セルを記述することを可能にする。これにより、 agent は知覚結果を柔軟に組み合わせ・操作し、中間テキストと視覚的観測の両方、ならびに各問題の要件に応じて分析を適応させることができる。静的および動的な3D/4D空間推論タスクの幅広い範囲をカバーする20の空間推論ベンチマークにおいて評価した結果、SpatialClawは平均精度59.9%を達成し、最新の空間 agent を11.2ポイント上回った。また、ベンチマークやモデル固有の適応を一切行わずに、2つのモデルファミリーに属する6つのVLMバックボーン全体で一貫した性能向上を示した。

One-sentence Summary

This work introduces SpatialClaw, a training-free framework that adopts code as a flexible action interface, surpassing the inflexibility of single-pass execution and structured tool calls to enable vision-language models to freely compose perception operations for open-ended 3D and 4D spatial reasoning.

Key Contributions

  • The paper introduces SpatialClaw, a training-free framework that replaces rigid tool menus with executable Python code as a dynamic action interface for open-ended 3D and 4D spatial reasoning.
  • The method delivers controlled comparisons against alternative action interfaces alongside trace-level analyses that isolate the specific spatial reasoning patterns responsible for performance improvements.
  • Evaluated across multiple spatial reasoning benchmarks using a consistent scoring protocol, the approach demonstrates that parameter-free code execution enhances vision-language models without requiring fine-tuning or additional training data.

Introduction

Vision-language models have advanced significantly in general perception, yet spatial reasoning remains a persistent bottleneck for applications in robotics, embodied AI, and assistive systems. Prior approaches typically rely on costly fine-tuning or rigid tool-augmented architectures that lock models into fixed interfaces, commit to complete programs before evaluating intermediate outputs, or lack the ability to inspect perception results step-by-step. To address these constraints, the authors introduce SpatialClaw, a training-free framework that equips existing VLMs with a code action interface. By generating executable Python scripts on demand, the system dynamically composes specialized perception tools, enables turn-by-turn verification of intermediate results, and substantially improves spatial reasoning without adding parameters or requiring additional training data.

Dataset

  • Dataset composition and sources: The authors draw from a video sequence dataset where each sample provides a list of PIL images alongside a textual object description.
  • Key subset details: The primary collection focuses on object existence verification. Annotations are organized within a PerFrameMask structure that records frame indices, object labels, total frame counts, and object quantities, enabling direct indexing by absolute frame position.
  • Data usage and processing: The authors use this dataset to train a model that evaluates object presence, counts instances, and generates descriptions. The system accepts the image list and object name as input, then returns a dictionary containing existence flags, instance counts per image, and a short textual summary.
  • Metadata construction and processing details: Metadata is managed through the PerFrameMask object, which provides functions to extract 2D boolean segmentation masks, compute median 3D world centroids from reconstructed point clouds, and retrieve masked 3D point arrays. The pipeline also includes a visualization utility that overlays results for frame by frame verification.

Experiment

Evaluated across twenty spatial reasoning benchmarks spanning single-image, multi-view, and video domains, SpatialClaw is tested against multiple baselines using six diverse open-source vision-language models. The experiments validate that a persistent code-based action interface consistently outperforms structured tool calls and single-pass execution, particularly on tasks demanding iterative geometric computation across frames and viewpoints. Qualitative analyses reveal that the agent spontaneously adapts its tool usage to question semantics and that performance gains stem primarily from flexible code composition rather than predefined utility functions or model scale. Ultimately, the study concludes that designing expressive, revision-capable action interfaces is a highly impactful and generalizable strategy for advancing training-free spatial reasoning agents.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています