Command Palette
Search for a command to run...

초록
3D 생성형 AI의 발전으로 텍스트 프롬프트로부터 물리적 객체를 생성할 수 있게 되었지만, 다양한 구성 요소를 포함하는 객체를 생성하는 데는 여전히 도전 과제가 남아 있다. 본 연구에서는 3D 생성형 AI와 시각-언어 모델(VLM)을 통합한 파이프라인을 제안하여 자연어 기반으로 다중 구성 요소 객체를 로봇이 조립할 수 있도록 한다. 제안하는 방법은 사전 정의된 구조 및 패널 구성 요소를 활용하여 AI가 생성한 메시를 다중 구성 요소 3D 모델로 분해하기 위해, 기하학적 특성과 기능성에 대한 제로샷(zero-shot), 다중 모달 추론을 수행하는 VLM을 활용한다. 실험을 통해 VLM이 객체의 기능성에 기반하여 구조적 구성 요소 외에도 패널 구성 요소가 필요한 메시 영역을 판단할 수 있음을 입증하였다. 테스트 객체에 대한 평가 결과, 사용자들은 VLM이 생성한 구성 요소 할당을 룰 기반 할당보다 90.6%의 비율로 선호하였으며, 랜덤 할당보다는 2.5%의 비율로 선호하였다. 마지막으로, 시스템은 대화형 피드백을 통해 사용자가 구성 요소 할당을 보정할 수 있도록 하여, 생성형 AI와 로봇을 활용한 물리적 객체 제작 과정에서 사용자의 통제력과 주도성을 더욱 강화한다.