HyperAIHyperAI

Command Palette

Search for a command to run...

コンポジショナル推論のための大型ビジョン・言語モデルへのプロンプト設計

Timothy Ossowski Ming Jiang Junjie Hu

概要

CLIPをはじめとする視覚言語モデルは、テキストと画像を統一された埋め込み空間に符号化する能力を示しており、マルチモーダルデータの検索を可能にしている。しかし、これらの埋め込みベースのモデルは、視覚的・言語的構成性(visio-linguistic compositionality)が類似する画像とテキスト間の正確な一致を効果的に実現する点で依然として課題を抱えている。これは最近のWinogroundデータセットにおける性能低下からも明らかである。本論文では、この限界が2つの要因に起因すると主張する。第一に、複雑なマルチモーダルデータに対して単一のベクトル表現を用いること、第二に、これらの埋め込みベースの手法に段階的な推論プロセスが欠如していることである。この問題に対処するため、大規模な視覚言語モデル(例:GPT-4)を用いて画像を描写させ、構成的推論(compositional reasoning)を実行する新しい生成手法を提案する。このアプローチは、Winogroundデータセットにおいて他の埋め込みベース手法を上回る性能を発揮し、最適な記述を組み合わせることで、さらに最大10%の精度向上が達成された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています