HyperAI초신경

블랙박스 옵티마이저

2024년, 카네기 멜론 대학교(CMU)는 대규모 언어 모델을 통해 자연어 신호를 자동으로 조정하여 텍스트 그래프 및 시각적 인식과 같은 여러 다운스트림 작업에서 시각 언어 모델(VLM)의 성능을 최적화하는 새로운 블랙박스 최적화 전략을 제안했습니다. 이 방법은 모델의 내부 매개변수를 건드릴 필요가 없을 뿐만 아니라 최적화의 유연성과 속도를 크게 향상시켜 기술적 배경이 없는 사용자도 쉽게 모델 성능을 개선할 수 있습니다. 관련 연구 결과는 다음과 같습니다.시각 언어 모델을 위한 블랙박스 최적화 도구로서의 언어 모델", 이 연구는 CVPR 2024에 수락되었습니다.

캡션: 시각 언어 모델(VLM)은 채팅 기반 대규모 언어 모델(LLM)을 사용하여 생성됩니다. 인간 프롬프트 엔지니어가 프롬프트를 반복적으로 테스트하고 최적화하는 것처럼, 연구자들은 ChatGPT를 사용하여 시각 언어 모델(VLM)의 프롬프트를 지속적으로 최적화합니다. 이 연구의 반복적 접근 방식은 ChatGPT가 몇 가지 샷 데이터 세트(파란색으로 강조 표시)에서 생성한 프롬프트의 성능을 평가하고, 예시 그림에서 볼 수 있듯이 간단한 대화(보라색으로 표시)를 통해 ChatGPT에 피드백을 제공합니다. 이 간단하고 직관적인 접근 방식은 CLIP을 사용하여 11개 데이터세트에 대한 단일 샷 이미지 분류에서 최첨단 결과를 달성하고 모델 가중치, 기능 임베딩 또는 출력 로그 오즈에 대한 액세스 없이 블랙박스 방식으로 작동합니다. 연구에 따르면 긍정적(녹색) 신호와 부정적(빨간색) 신호를 모두 제공하면 효과가 향상된다고 합니다. 특히, 이처럼 샘플이 극히 적은 시나리오에서 우리의 접근 방식은 그래디언트 기반 연속 프롬프트(CoOp) 및 수작업 프롬프트와 같은 화이트박스 방식보다 우수한 성과를 보입니다. 이 다이어그램은 ChatGPT 웹 UI를 사용한 일반적인 대화 중 하나를 보여줍니다. 이 연구의 코드 구현은 이 모드에서 ChatGPT API를 사용하여 수행되었습니다.

구체적으로 연구진은 자연어 프롬프트를 사용하여 VLM을 최적화했으며, 이를 통해 모델 매개변수, 기능 임베딩, 출력 로그 오즈를 얻지 않아도 됩니다. 구체적으로, 채팅 기반 대규모 언어 모델(LLM)은 자동 "힐 클라이밍" 절차를 통해 VLM에 가장 적합한 텍스트 프롬프트를 검색하는 데 사용되며, 이를 통해 인간의 개입 없이 대화 중에 프롬프트가 유효한 상태로 수렴될 수 있습니다.

까다로운 원샷 이미지 분류 설정에서 제안된 간단한 방법은 ImageNet을 포함한 11개 데이터세트에서 테스트되었으며, 평균적으로 화이트박스 연속 프롬프트 방법(CoOp)보다 1.5% 더 우수한 성능을 보였고, 수동으로 설계된 프롬프트와 LLM에서 생성한 프롬프트보다 우수한 성능을 보였습니다. 이 연구는 또한 LLM이 텍스트 피드백의 암묵적인 "경사" 방향을 활용하여 보다 효율적인 검색을 달성할 수 있기 때문에 긍정적, 부정적 단서를 포함하는 대화 피드백의 이점을 강조합니다. 더욱이 이 전략을 통해 생성된 텍스트 프롬프트는 해석하기 쉬울 뿐만 아니라 블랙박스 방식으로 서로 다른 VLM 아키텍처 간에도 잘 전송됩니다.

마지막으로, 이 프레임워크는 텍스트-이미지 생성, 즉각적인 반전 및 개인화를 위한 최첨단 블랙박스 VLM(DALL-E 3)을 최적화하는 데 적용됩니다.