HyperAI超神経

ブラックボックスオプティマイザー

カーネギーメロン大学 (CMU) は、2024 年に新しいブラックボックス最適化戦略を提案しました。この戦略は、大規模な言語モデルを通じて自然言語プロンプトワードを自動的に調整し、ヴィンセントグラフの視覚言語モデル (VLM)、認識などの複数の下流タスクにおける視覚パフォーマンスを最適化します。 。この方法では、モデルの内部パラメーターに触れる必要がないだけでなく、最適化の柔軟性と速度が大幅に向上し、技術的な背景がないユーザーでもモデルのパフォーマンスを向上させることが容易になります。関連する研究結果は「視覚言語モデルのブラックボックス オプティマイザーとしての言語モデル」として、この研究は CVPR 2024 に採択されました。

キャプション: チャットベースの大規模言語モデル (LLM) を使用して、ビジュアル言語モデル (VLM) をプロンプトします。人間のプロンプト エンジニアがプロンプトを繰り返しテストして最適化するのと同じように、研究者は ChatGPT を使用して視覚言語モデル (VLM) のプロンプトを継続的に最適化します。この研究の反復アプローチでは、図の例に示すように、数ショット データセット (青で強調表示) 上で ChatGPT が生成したプロンプトのパフォーマンスを評価し、簡単な会話 (紫でマーク) を通じて ChatGPT にフィードバックを提供します。このシンプルで直接的なアプローチは、CLIP を使用した 11 個のデータセットの単一サンプル画像分類で最先端の結果を達成し、モデルの重み、特徴の埋め込み、または出力対数オッズにアクセスせずにブラックボックス方式で動作します。研究によると、ポジティブ (緑) とネガティブ (赤) の両方の合図を提供すると効率が向上することがわかっています。特に、この非常にサンプル数が少ないシナリオでは、私たちのアプローチは、手動で設計されたプロンプトだけでなく、勾配ベースの連続プロンプト (CoOp) などのホワイトボックス手法よりも優れたパフォーマンスを発揮します。この図は、ChatGPT Web ユーザー インターフェイスを使用した典型的な会話のみを示しています。この研究のコード実装は、ChatGPT API を通じてこのパターンに従います。

具体的には、研究者らは自然言語プロンプトを通じて VLM を最適化し、モデル パラメーター、特徴の埋め込み、出力ログ オッズを取得するなどの操作を回避します。具体的には、チャットベースの大規模言語モデル (LLM) を使用して、自動「山登り」プログラムを通じて VLM に最適なテキスト プロンプトを検索します。このプログラムは、人手を介さずに会話中にプロンプトを効果的な値に収束させることができます。介入状態。

単一サンプルの画像分類という困難な設定において、提案された単純な手法は ImageNet を含む 11 のデータセットでテストされ、ホワイトボックス連続キュー手法 (CoOp) を平均 1.5% 上回り、プロンプトだけでなく手動で設計されたプロンプトよりも優れています。 LLM によって生成されます。研究では、LLM がテキスト フィードバックに暗黙的に含まれる「勾配」方向を利用して、より効率的な検索を実現できるため、ポジティブおよびネガティブな合図を含む会話型フィードバックの利点も強調されています。さらに、この戦略によって生成されたテキスト プロンプトは、より解釈しやすいだけでなく、ブラック ボックス方式で異なる VLM アーキテクチャ間で適切に転送されます。

最後に、このフレームワークは、テキストから画像への生成、プロンプト反転、パーソナライゼーションのための最先端のブラックボックス VLM (DALL-E 3) の最適化にも使用されます。