HyperAI超神経

概要

最先端の視覚および視覚・言語モデルは、さまざまな下流タスクにおいて優れた性能を発揮するため、大規模な視覚言語事前学習に依存している。一般的に、このようなモデルは、しばしばクロスモーダル（対照的）またはマルチモーダル（早期融合型）のいずれか一方であるが、両方を兼ね備えることは少ない。また、多くの場合、特定のモダリティやタスクに特化している。より有望なアプローチとして、すべてのモダリティを一度に扱う単一の包括的汎用モデル——すなわち「基盤モデル（foundation model）」としての役割を果たすモデルの構築が挙げられる。真の視覚・言語基盤モデルとは、視覚タスク、言語タスク、そしてクロスモーダルおよびマルチモーダルな視覚・言語タスクにおいていずれも優れた性能を発揮すべきである。本研究では、このようなモデルとしてFLAVAを提案し、対象とするモダリティにわたる35のタスクにおいて、著しい性能を実証した。

概要

Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela

概要

AIでAIを構築

HyperAI Newsletters

Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela

概要

AIでAIを構築

HyperAI Newsletters

Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

FLAVA：基礎となる言語および視覚のアライメントモデル

Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

FLAVA：基礎となる言語および視覚のアライメントモデル

Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

FLAVA：基礎となる言語および視覚のアライメントモデル

Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela

概要

AIでAIを構築

HyperAI Newsletters