HyperAIHyperAI

Command Palette

Search for a command to run...

視覚と言語の連携をローカライズされた物語で実現する

Jordi Pont-Tuset Jasper Uijlings Soravit Changpinyo Radu Soricut Vittorio Ferrari

概要

我们提案了一種名为「局所的ナラティブ(Localized Narratives)」の新しいマルチモーダル画像アノテーション形式であり、視覚と言語を結びつけるものである。アノテーターに画像を説明する際、その説明を音声で行いながら、説明対象の領域にマウスカーソルを同時にホバーさせるように依頼する。音声とマウスカーソルの動きが同期しているため、説明文のすべての単語を視覚的に局所化(localize)することが可能となる。この高密度な視覚的接地(visual grounding)は、各単語ごとにマウスの移動軌跡(trace segment)として表現され、本データセットに特有の特徴である。我々は、COCO、Flickr30k、ADE20Kの全データセットおよびOpen Imagesの671,000枚の画像を、合計849,000枚の画像に対して局所的ナラティブでアノテーションした。これらのデータはすべて公開する。また、これらのアノテーションが多様性に富み、正確であり、効率的に生成可能であることを広範な分析を通じて示した。さらに、制御された画像キャプション(controlled image captioning)という応用タスクにおいて、その有効性も実証した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています