6ヶ月前

概要

文脈、特に知覚的および時間的ヒントを統合する能力は、言語的発話の意味を適切に定義づける上で中心的な役割を果たす。現在の視覚・言語モデルがこの能力をどの程度習得しているかを測定するため、我々は新たなマルチモーダルチャレンジ「文脈記述からの画像検索（Image Retrieval from Contextual Descriptions, ImageCoDe）」を提案する。具体的には、10枚の最小限に差が生じる候補画像の中から、文脈的な記述に基づいて正しい画像を検索するタスクをモデルに課す。このため、各記述には画像間を区別するための情報のみが含まれており、記述自体は構文や話法の面で複雑になりやすく、実用的推論（pragmatic inference）を必要とする。画像のソースは静止画像と動画フレームの両方を含む。我々は、ViLBERTのようなクロスエンコーダとCLIPのようなバイエンコーダを含む複数の最先端モデルをImageCoDeでベンチマークした。その結果、これらのモデルは人間の性能と比べて著しく劣っていることが明らかになった。最も優れたモデルでも、動画フレームでは20.9、静止画像では59.4の精度にとどまり、人間の90.8と大きな差がある。さらに、視覚的および時間的文脈を表現により適切に組み込むことができる新たなモデル変種を検証したが、その改善は限定的であった。本研究の目的は、モデルが微細な視覚的差異に注目するよう促すことで、意味の地盤づけられた言語理解の進展を促進することにある。

ソースPDF コードを表示