ブラックボックスオプティマイザー
カーネギーメロン大学 (CMU) は、2024 年に新しいブラックボックス最適化戦略を提案しました。この戦略は、大規模な言語モデルを通じて自然言語プロンプトワードを自動的に調整し、ヴィンセントグラフの視覚言語モデル (VLM)、認識などの複数の下流タスクにおける視覚パフォーマンスを最適化します。 。この方法では、モデルの内部パラメーターに触れる必要がないだけでなく、最適化の柔軟性と速度が大幅に向上し、技術的な背景がないユーザーでもモデルのパフォーマンスを向上させることが容易になります。関連する研究結果は「視覚言語モデルのブラックボックス オプティマイザーとしての言語モデル」として、この研究は CVPR 2024 に採択されました。

具体的には、研究者らは自然言語プロンプトを通じて VLM を最適化し、モデル パラメーター、特徴の埋め込み、出力ログ オッズを取得するなどの操作を回避します。具体的には、チャットベースの大規模言語モデル (LLM) を使用して、自動「山登り」プログラムを通じて VLM に最適なテキスト プロンプトを検索します。このプログラムは、人手を介さずに会話中にプロンプトを効果的な値に収束させることができます。介入状態。
単一サンプルの画像分類という困難な設定において、提案された単純な手法は ImageNet を含む 11 のデータセットでテストされ、ホワイトボックス連続キュー手法 (CoOp) を平均 1.5% 上回り、プロンプトだけでなく手動で設計されたプロンプトよりも優れています。 LLM によって生成されます。研究では、LLM がテキスト フィードバックに暗黙的に含まれる「勾配」方向を利用して、より効率的な検索を実現できるため、ポジティブおよびネガティブな合図を含む会話型フィードバックの利点も強調されています。さらに、この戦略によって生成されたテキスト プロンプトは、より解釈しやすいだけでなく、ブラック ボックス方式で異なる VLM アーキテクチャ間で適切に転送されます。
最後に、このフレームワークは、テキストから画像への生成、プロンプト反転、パーソナライゼーションのための最先端のブラックボックス VLM (DALL-E 3) の最適化にも使用されます。