HyperAI超神経

CompreCap データセットは、詳細な画像の説明を生成する際の大規模な視覚言語モデルの精度と包括性を評価するために、中国科学技術大学や Ant Group などの機関によって 2024 年に共同で作成されました。関連する論文の結果は次のとおりです。包括的な画像キャプションのための有向シーングラフによる大規模視覚言語モデルのベンチマーク”。データセットには 560 の画像が含まれており、それぞれの画像にはオブジェクト、属性、関係性の細かいセマンティックセグメンテーションと注釈が付けられており、完全な有向シーングラフ構造を形成しています。

データセットの構築は MSCOCO パノラマセグメンテーションデータセットに基づいていますが、拡張および改善されています。研究者らは、複数のよく知られたデータセットから一般的なオブジェクトカテゴリの語彙を構築し、これらのカテゴリに再注釈を付けて、より正確なセマンティックセグメンテーションマスクを提供しました。注釈の完全性を保証するために、分割領域が 95% 画像領域を超える画像のみが保持されます。その後、研究者らはこれらのオブジェクトに詳細な属性の説明を手動で追加し、オブジェクト間の重要な関係をマークして、完全な有向シーングラフ構造を形成しました。

CompreCap データセットのアノテーション情報には、オブジェクトのセマンティックセグメンテーションマスク、詳細な属性の説明、オブジェクト間の方向関係が含まれます。このアノテーション情報は、一般的なオブジェクトカテゴリをカバーするだけでなく、オブジェクト間の複雑な関係を指向性シーングラフの形式でキャプチャし、データセットが詳細な画像記述の生成の品質を包括的に評価できるようにします。

CompreCap 画像記述データセット

AI で AI を構築

Hyper Newsletters

Command Palette

CompreCap 画像記述データセット

AI で AI を構築

Hyper Newsletters