HyperAIHyperAI

Command Palette

Search for a command to run...

文脈記述からの画像検索

Benno Krojer Vaibhav Adlakha Vibhav Vineet Yash Goyal Edoardo Ponti Siva Reddy

概要

文脈、特に知覚的および時間的ヒントを統合する能力は、言語的発話の意味を適切に定義づける上で中心的な役割を果たす。現在の視覚・言語モデルがこの能力をどの程度習得しているかを測定するため、我々は新たなマルチモーダルチャレンジ「文脈記述からの画像検索(Image Retrieval from Contextual Descriptions, ImageCoDe)」を提案する。具体的には、10枚の最小限に差が生じる候補画像の中から、文脈的な記述に基づいて正しい画像を検索するタスクをモデルに課す。このため、各記述には画像間を区別するための情報のみが含まれており、記述自体は構文や話法の面で複雑になりやすく、実用的推論(pragmatic inference)を必要とする。画像のソースは静止画像と動画フレームの両方を含む。我々は、ViLBERTのようなクロスエンコーダとCLIPのようなバイエンコーダを含む複数の最先端モデルをImageCoDeでベンチマークした。その結果、これらのモデルは人間の性能と比べて著しく劣っていることが明らかになった。最も優れたモデルでも、動画フレームでは20.9、静止画像では59.4の精度にとどまり、人間の90.8と大きな差がある。さらに、視覚的および時間的文脈を表現により適切に組み込むことができる新たなモデル変種を検証したが、その改善は限定的であった。本研究の目的は、モデルが微細な視覚的差異に注目するよう促すことで、意味の地盤づけられた言語理解の進展を促進することにある。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています