HyperAI초신경

검색 증강 인식

검색 증강 인식(RAP) 플러그인은 2025년 3월 난양기술대학교와 우한대학교 팀에 의해 제안되었습니다. 관련 연구 결과는 논문 "검색 증강 인식: 고해상도 이미지 인식과 시각적 RAG의 만남", 이 연구는 ICML 2025에 포함되었으며 주목 논문으로 평가되었습니다.

RAP는 학습이 필요 없는 RAG 기술 기반의 고해상도 이미지 인식 플러그인입니다. MLLM의 고해상도 이미지 인식 작업 성능을 향상시키고 동시에 계산 비용을 절감하는 것을 목표로 합니다. 이를 통해 모델은 복잡한 환경에서 더욱 강력한 이해력, 상황 인식 및 추론 능력을 발휘할 수 있습니다. 실험 결과에 따르면 RAP는 여러 고해상도 이미지 벤치마크에서 성능을 크게 향상시킵니다. 예를 들어, LLaVA-v1.5-13B는 V* Bench에서 43%, HR-Bench에서 19%의 성능을 향상시켰습니다.