HyperAIHyperAI

Command Palette

Search for a command to run...

プリズマー:マルチタスクエキスパートを備えた視覚言語モデル

Shikun Liu Linxi Fan Edward Johns Zhiding Yu Chaowei Xiao Anima Anandkumar

概要

最近の視覚言語モデルは、多様なモーダルな生成能力を著しく発揮している。しかし、通常、これらのモデルは膨大なデータセット上で大規模なモデルを訓練する必要がある。よりスケーラブルな代替手段として、本研究では、タスク固有のエキスパートのアンサンブルを活用する、データおよびパラメータ効率的な視覚言語モデル「Prismer」を提案する。Prismerは、少数のコンポーネントのみを訓練すればよく、ネットワークの大部分の重みは、既に入手可能で事前学習済みの複数のエキスパートから継承され、訓練中は固定されたままとなる。幅広い分野にわたるエキスパートを活用することで、Prismerがこれらのエキスパートの知識を効率的に統合し、さまざまな視覚言語推論タスクに適応できることを示した。実験の結果、Prismerは現在の最先端モデルと比較しても競争力のあるファインチューニングおよびフェイショット学習性能を達成している一方で、訓練データ量は最大で2桁以上削減可能であることが明らかになった。コードは https://github.com/NVlabs/prismer で公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています