11日前

言語、視覚、視覚言語理解タスク向けの汎用基盤モデル構築への道 (注:LLM/LLMs/Agent/token/tokens などの専門用語は原文のまま保持。翻訳は学術論文の日本語版に準拠した流暢かつ正確な表現を採用。)

Xinsong Zhang, Yan Zeng, Jipeng Zhang, Hang Li
言語、視覚、視覚言語理解タスク向けの汎用基盤モデル構築への道
(注:LLM/LLMs/Agent/token/tokens などの専門用語は原文のまま保持。翻訳は学術論文の日本語版に準拠した流暢かつ正確な表現を採用。)
要約

基盤モデル(ファウンデーションモデル)または事前学習モデルは、さまざまな言語、視覚、視覚言語理解タスクにおける性能を著しく向上させました。しかし、現在の基盤モデルは、言語、視覚、視覚言語のいずれかのタスクにおいてのみ最良のパフォーマンスを発揮できており、すべての理解タスクにおいて最適な性能を発揮できるモデルの構築が可能かどうかは、依然として未解決の課題です。本研究では、そのようなすべての理解タスクにおいて最適な性能を発揮できる一般化基盤モデル(General Foundation Model)を実現する新たなモデル、X-FM(X-Foundation Model)を提案します。X-FMは、言語エンコーダ、視覚エンコーダ、融合エンコーダをそれぞれ1つずつ備え、さらに新たな学習手法を採用しています。この学習手法には、テキスト、画像、画像-テキストペアデータからX-FMを学習するための2つの新技術が含まれます。1つは、言語エンコーダの学習時に視覚言語学習からの勾配を停止する手法であり、もう1つは視覚言語学習を活用して視覚エンコーダの学習をガイドする手法です。ベンチマークデータセットにおける広範な実験の結果、X-FMは既存の一般化基盤モデルを著しく上回り、言語、視覚、視覚言語理解に特化した既存の基盤モデルと比較して、同等または優れた性能を示すことが確認されました。コードおよび事前学習済みモデルは、https://github.com/zhangxinsong-nlp/XFM にて公開されています。

言語、視覚、視覚言語理解タスク向けの汎用基盤モデル構築への道 (注:LLM/LLMs/Agent/token/tokens などの専門用語は原文のまま保持。翻訳は学術論文の日本語版に準拠した流暢かつ正確な表現を採用。) | 最新論文 | HyperAI超神経