HyperAI초신경

느린 지각

느린 지각은 인공지능 분야에서 대규모 멀티모달 모델의 시각적 추론 능력을 향상시키기 위해 사용되는 기술입니다. StepFun 팀과 베이항대학이 2025년에 공동으로 제안한 것으로, 기하학적 도형 등에 대한 정밀한 인식을 달성하기 위해 인식 과정을 분할하여 시각적 추론 과제에서 대규모 다중 모달 모델의 성능을 개선하는 것을 목표로 합니다. 관련 논문 결과는 다음과 같습니다.느린 지각: 기하학적 도형을 단계별로 지각해 보자".

느린 인식은 2단계로 나뉩니다.

  • 인식 분해: 기하학적 도형을 기본 모양 단위(선)로 분해하고, 복잡한 기하학적 표현을 통합하고, 다중 모드 최적화 문제를 피하고, "복잡한 것을 단순화"하는 목표를 달성합니다. 이를 통해 폴리곤 중첩 문제와 같이 모델이 복잡한 기하 구조를 처리할 때 발생할 수 있는 오류를 방지할 수 있습니다.
  • 지각 흐름: 이 모델은 가상 지각 자를 기반으로 하며, 초기 지점에서 최종 지점까지 선분을 점진적으로 추적합니다. 긴 선분의 지각 과정은 결정 지점에서 여러 번의 주시를 거쳐 다음 결정 지점에 도달하는 과정으로 모델화됩니다. 이는 인식 수준에서 추론 시간 확장을 도입하여 모델이 선분을 정확하게 예측하는 능력을 향상시킵니다.

느린 인식은 사람이 기하학적 도형을 단계적으로 분석하는 방식을 시뮬레이션하여 복잡한 기하학적 도형을 분석하는 모델의 능력을 크게 향상시킵니다. 이 방법은 실험에서 상당한 성능 향상을 입증했을 뿐만 아니라 추론 시간 확장 법칙, 즉 계산 복잡성을 증가시켜 구문 분석 정확도를 향상시킨다는 법칙도 밝혀냈습니다. 이번 발견은 컴퓨터 비전에서 기하학적 도형을 분석하는 작업에 대한 새로운 아이디어를 제공합니다.