Command Palette
Search for a command to run...
3D 생성형 AI와 비전 언어 모델을 활용한 다중 구성 요소 물체의 로봇 조립
3D 생성형 AI와 비전 언어 모델을 활용한 다중 구성 요소 물체의 로봇 조립
초록
3D 생성형 AI의 발전으로 텍스트 프롬프트로부터 물리적 객체를 생성할 수 있게 되었지만, 다양한 구성 요소를 포함하는 객체를 생성하는 데는 여전히 도전 과제가 남아 있다. 본 연구에서는 3D 생성형 AI와 시각-언어 모델(VLM)을 통합한 파이프라인을 제안하여 자연어 기반으로 다중 구성 요소 객체를 로봇이 조립할 수 있도록 한다. 제안하는 방법은 사전 정의된 구조 및 패널 구성 요소를 활용하여 AI가 생성한 메시를 다중 구성 요소 3D 모델로 분해하기 위해, 기하학적 특성과 기능성에 대한 제로샷(zero-shot), 다중 모달 추론을 수행하는 VLM을 활용한다. 실험을 통해 VLM이 객체의 기능성에 기반하여 구조적 구성 요소 외에도 패널 구성 요소가 필요한 메시 영역을 판단할 수 있음을 입증하였다. 테스트 객체에 대한 평가 결과, 사용자들은 VLM이 생성한 구성 요소 할당을 룰 기반 할당보다 90.6%의 비율로 선호하였으며, 랜덤 할당보다는 2.5%의 비율로 선호하였다. 마지막으로, 시스템은 대화형 피드백을 통해 사용자가 구성 요소 할당을 보정할 수 있도록 하여, 생성형 AI와 로봇을 활용한 물리적 객체 제작 과정에서 사용자의 통제력과 주도성을 더욱 강화한다.