2ヶ月前

GLAMI-1M: 多言語画像テキストファッションデータセット

Vaclav Kosar; Antonín Hoskovec; Milan Šulc; Radek Bartyzal

要約

GLAMI-1Mを紹介します。これは最大規模の多言語画像・テキスト分類データセットおよびベンチマークです。このデータセットには、13の言語のいずれかでアイテム説明が付いたファッション製品の画像が含まれています。191クラスへの分類は高品質なアノテーションが行われており、テストセットの全10万枚の画像と、100万枚の学習セットの75%が人間によってラベリングされています。本論文では、画像・テキスト分類のベースラインを提示し、このデータセットが細かい分類問題に挑戦的なものであることを示しています。視覚的特徴と文章的特徴を両方使用する最高得点を記録したEmbraceNetモデルでも、正解率は69.7%でした。修正されたImagenモデルを使用した実験では、このデータセットが文章に基づく画像生成にも適していることが示されました。データセット、ソースコード、モデルチェックポイントはhttps://github.com/glami/glami-1m で公開されています。