17日前
教師付きマルチモーダルビートランスフォーマーを用いた画像およびテキストの分類
Douwe Kiela, Suvrat Bhooshan, Hamed Firooz, Ethan Perez, Davide Testuggine

要約
BERTのような自己教師付き双方向変換モデルは、多様なテキスト分類タスクにおいて顕著な性能向上をもたらした。しかし、現代のデジタル環境はますますマルチモーダル化しており、テキスト情報はしばしば画像などの他のモダリティと併せて存在する。本研究では、テキストエンコーダーと画像エンコーダーからの情報を統合する教師ありマルチモーダルビトランスフォーマーモデルを提案し、さまざまなマルチモーダル分類ベンチマークタスクにおいて最先端の性能を達成した。特に、マルチモーダル性能を測定するために設計された難易度の高いテストセットにおいても、強力なベースラインを上回る結果を得た。