Command Palette
Search for a command to run...

要約
3D生成AIの進展により、テキストプロンプトから物理的物体の作成が可能になったが、複数の部品種類を含む物体の生成には依然として課題が残っている。本研究では、3D生成AIと視覚言語モデル(VLM)を統合するパイプラインを提示し、自然言語から多部品構造の物体をロボットが組み立てる可能性を実現する。本手法は、VLMを用いて幾何学的形状と機能性に関するゼロショット・マルチモーダル推論を実行し、事前に定義された構造部品およびパネル部品を用いて、AIが生成したメッシュを多部品3Dモデルに分解する。実証実験の結果、VLMは物体の機能性に基づき、構造部品に加えてパネル部品が必要なメッシュ領域を適切に同定できることを示した。テスト対象物体に対する評価において、ユーザーはVLMによる部品割り当てを90.6%の割合で好んだのに対し、ルールベースの割り当てでは59.4%、ランダム割り当てではわずか2.5%であった。さらに、本システムは会話型フィードバックを通じてユーザーが部品割り当てを修正できる機能を備えており、生成AIとロボティクスを活用した物理的物体の創出において、より高い人間の制御性と主体性を実現している。