UDK-VQA 데이터 생성 프레임워크
UDK-VQA 프레임워크는 상하이 인공지능 연구소, 베이징 공업대학, 저장대학교, 홍콩대학교가 2024년에 공동으로 제안한 데이터 생성 프레임워크입니다. 이 프레임워크의 목표는 대규모 멀티모달 모델이 실시간 정보에 대한 피드백을 제공하도록 지원하는 것입니다. 관련 논문 결과는 다음과 같습니다.SearchLVLMs: 최신 인터넷 지식을 검색하여 대규모 비전 언어 모델을 확장하기 위한 플러그 앤 플레이 프레임워크".
UDK-VQA 프레임워크의 핵심 목적은 기존의 대규모 시각 언어 모델(LVLM)을 향상시켜 최신 지식을 바탕으로 시각적 질의응답(VQA)을 처리할 수 있도록 하는 것입니다. 대규모 비전 언어 모델은 최신 지식을 통합할 만큼 자주 업데이트할 수 없으므로 새로운 정보가 필요한 시나리오를 처리할 때 많은 경우 실패합니다. 예를 들어, LVLM이 2024년 1월에 개봉한다면, 2024년 4월에 개봉하는 영화의 주제곡 아티스트가 누구인지 알 수 없습니다.
이 문제를 해결하기 위해, 우리는 인터넷 검색을 통한 추론 과정에서 LVLM에 최신 지식을 제공하는 플러그 앤 플레이 프레임워크인 소위 인터넷 증강 생성(IAG)을 제안합니다. UDK-VQA 프레임워크는 검색 엔진이 반환한 웹 페이지에서 가장 유용한 콘텐츠를 효과적이고 효율적으로 찾아 LVLM에 최신 지식을 제공하기 위한 계층적 필터링 모델을 학습합니다.
또한, 모델을 훈련하고 프레임워크의 성능을 평가하기 위해 연구진은 뉴스 관련 VQA 샘플을 자동으로 생성하여 데이터 세트를 구성하는 프로세스를 제안했는데, 이를 UDK-VQA라고 합니다.