7日前

視覚モデルは、教師なしで未加工の画像上で事前学習された場合、より頑健かつ公正になる

Priya Goyal, Quentin Duval, Isaac Seessel, Mathilde Caron, Ishan Misra, Levent Sagun, Armand Joulin, Piotr Bojanowski
視覚モデルは、教師なしで未加工の画像上で事前学習された場合、より頑健かつ公正になる
要約

判別型自己教師あり学習は、インターネット上の任意のランダムな画像群を用いてモデルを訓練可能であり、画像間を区別するのに役立つ顕著な情報を回復する可能性を秘めています。ImageNetに適用した場合、この手法は物体中心の特徴を獲得でき、ほとんどの物体中心の下流タスクにおいて教師あり学習で得られる特徴と同等の性能を発揮します。本研究では、この能力を活用して、世界中の多様かつ無制限の画像集合に含まれる顕著かつより代表的な情報を学習できるかどうかを検証します。そのため、データの前処理を一切行わず、モデルが何を学ぶべきかという事前仮定も設けずに、数十億枚のランダムな画像上でモデルを学習させました。大規模なデータ量に対応するため、モデルの規模を100億パラメータ規模の高密度構造にまで拡大し、過小適合(underfitting)を回避しました。さらに、公平性、分布シフトに対するロバスト性、地理的多様性、細粒度認識、画像のコピー検出、多数の画像分類データセットを含む50以上のベンチマークにおいて、モデルの性能を広範に検証しました。その結果得られたモデルは、単に意味情報(セマンティック情報)を適切に捉えるだけでなく、アートスタイルに関する情報や、視覚的コンテンツのみに基づいて地理的位置(geolocations)や多言語語彙埋め込み(multilingual word embeddings)といった顕著な情報を学習することが可能であることが明らかになりました。さらに重要なのは、このようなモデルは、教師あり学習モデルやImageNetなどの物体中心データセットで学習されたモデルと比較して、よりロバストで、より公平であり、有害性が低く、バイアスも少ないことが明らかになったことです。

視覚モデルは、教師なしで未加工の画像上で事前学習された場合、より頑健かつ公正になる | 最新論文 | HyperAI超神経