SearchLVLMs 프레임워크
SearchLVLMs 프레임워크는 상하이 인공지능 연구소(OpenGVLab), 베이징 공업 대학, 저장 대학, 홍콩 대학이 2024년에 공동으로 제안한 플러그 앤 플레이 솔루션으로, 기존 대규모 시각 언어 모델(LVLM)이 최신 지식에 대한 시각적 질의 응답(VQA)을 처리하는 능력을 향상시키는 것을 목표로 합니다. 관련 논문 결과는 다음과 같습니다.SearchLVLMs: 최신 인터넷 지식을 검색하여 대규모 비전 언어 모델을 확장하기 위한 플러그 앤 플레이 프레임워크".
대규모 시각 언어 모델(LLaVA 계열 등)은 자주 업데이트할 수 없고 최신 지식(예: 새 영화의 주제가를 부르는 가수)을 인식하지 못하기 때문에 많은 상황에서 성능이 좋지 않습니다. SearchLVLMs 프레임워크는 추론 단계에서 인터넷 검색 향상 기능을 제공하여 LVLM이 최신 지식을 습득할 수 있도록 함으로써 이 문제를 개선합니다.
SearchLVLMs 프레임워크는 주로 쿼리 생성, 검색 엔진 호출, 계층적 필터링의 세 부분으로 구성됩니다. 쿼리 생성 단계에서 프레임워크는 질문과 이미지를 완전히 이해하여 검색 엔진에 적합한 텍스트 쿼리로 변환해야 합니다. 검색 엔진 호출 단계에서 사용자는 질문 유형에 따라 호출할 검색 엔진 카테고리를 선택할 수 있습니다. 마지막으로, 계층적 필터링 단계에서 프레임워크는 검색 엔진이 반환한 웹 페이지에서 가장 유용한 콘텐츠를 효과적으로 찾는 모델을 훈련합니다.
실험 결과에 따르면 SearchLVLMs 프레임워크는 최신 지식을 요구하는 질문에 답할 때 LVLM의 성능을 크게 향상시킬 수 있으며, 정확도는 GPT-4V보다 약 25% 더 높습니다. 제안된 SearchLVLMs 프레임워크는 대규모 멀티모달 모델에 플러그 앤 플레이 솔루션을 제공하여 최신 인터넷 지식을 원활하게 통합하고 실시간 정보에 대한 피드백을 제공하는 모델의 기능을 향상시킬 수 있습니다.