입모양 해석(Lipreading)은 음성-시각적 말하기 인식의 중요한 구성 요소이다. 그러나 기존의 입모양 해석 방법은 입을 전반적으로 하나의 단위로 모델링하는 경향이 있어, 입의 각 부분이 입의 서로 다른 특징에 집중한다는 점을 간과하고 있다. 또한 전체 입 모델은 각 부분을 완벽하게 표현할 수 없으며, 전반적인 입 특징은 개인마다 상당한 차이를 보이기 때문에, 훈련 데이터베이스에 가능한 한 다양한 화자(발화자)를 포함시켜야 하는 문제가 발생한다. 본 논문에서는 이러한 전반적인 입 모델과 입의 개별 부분 간의 불일치, 그리고 모델이 훈련 데이터셋 내 화자에 지나치게 의존하는 문제를 해결하기 위해, 부분 기반 입모양 해석(Part-based Lipreading, PBL) 방법을 제안한다. PBL은 입을 부분적으로 모델링하고, 각 부분의 예측을 종합적으로 수행한다. 이 방법은 합성곱 특징에 대해 균일한 분할 전략을 적용하여 여러 부분 수준의 하위 예측 결과를 생성하고, 최종 예측을 수행한다. 제안된 방법은 대규모 공개 데이터셋(LRW)과 그 일부(65단어, p-LRW)를 대상으로 실험을 수행하였으며, 로봇의 작업 환경에서의 점진적 지시 시나리오를 시뮬레이션하였다. 실험 결과, PBL은 LRW에서 82.8%의 단어 정확도를, p-LRW에서는 88.9%의 단어 정확도를 달성하였다. 마지막으로, PBL을 활용한 엔드 투 엔드 음성-시각적 말하기 인식 시스템을 구축하였으며, 이 시스템은 LRW에서 98.3%의 단어 정확도를 기록하였다.