블랙박스 옵티마이저
2024년, 카네기 멜론 대학교(CMU)는 대규모 언어 모델을 통해 자연어 신호를 자동으로 조정하여 텍스트 그래프 및 시각적 인식과 같은 여러 다운스트림 작업에서 시각 언어 모델(VLM)의 성능을 최적화하는 새로운 블랙박스 최적화 전략을 제안했습니다. 이 방법은 모델의 내부 매개변수를 건드릴 필요가 없을 뿐만 아니라 최적화의 유연성과 속도를 크게 향상시켜 기술적 배경이 없는 사용자도 쉽게 모델 성능을 개선할 수 있습니다. 관련 연구 결과는 다음과 같습니다.시각 언어 모델을 위한 블랙박스 최적화 도구로서의 언어 모델", 이 연구는 CVPR 2024에 수락되었습니다.

구체적으로 연구진은 자연어 프롬프트를 사용하여 VLM을 최적화했으며, 이를 통해 모델 매개변수, 기능 임베딩, 출력 로그 오즈를 얻지 않아도 됩니다. 구체적으로, 채팅 기반 대규모 언어 모델(LLM)은 자동 "힐 클라이밍" 절차를 통해 VLM에 가장 적합한 텍스트 프롬프트를 검색하는 데 사용되며, 이를 통해 인간의 개입 없이 대화 중에 프롬프트가 유효한 상태로 수렴될 수 있습니다.
까다로운 원샷 이미지 분류 설정에서 제안된 간단한 방법은 ImageNet을 포함한 11개 데이터세트에서 테스트되었으며, 평균적으로 화이트박스 연속 프롬프트 방법(CoOp)보다 1.5% 더 우수한 성능을 보였고, 수동으로 설계된 프롬프트와 LLM에서 생성한 프롬프트보다 우수한 성능을 보였습니다. 이 연구는 또한 LLM이 텍스트 피드백의 암묵적인 "경사" 방향을 활용하여 보다 효율적인 검색을 달성할 수 있기 때문에 긍정적, 부정적 단서를 포함하는 대화 피드백의 이점을 강조합니다. 더욱이 이 전략을 통해 생성된 텍스트 프롬프트는 해석하기 쉬울 뿐만 아니라 블랙박스 방식으로 서로 다른 VLM 아키텍처 간에도 잘 전송됩니다.
마지막으로, 이 프레임워크는 텍스트-이미지 생성, 즉각적인 반전 및 개인화를 위한 최첨단 블랙박스 VLM(DALL-E 3)을 최적화하는 데 적용됩니다.