8ヶ月前

ドキュメント理解

マルチタスク学習

アプローチ／フレームワーク

自然言語処理

Jingye Chen Tengchao Lv Lei Cui Cha Zhang Furu Wei

概要

最近の事前学習の潮流は、ドキュメント理解の急速な発展をもたらしています。事前学習と微調整のフレームワークは、平文テキスト、ドキュメントテキスト、ウェブテキストなど、さまざまな形式のテキスト処理に効果的に利用されています。しかし、既存の事前学習モデルは通常、特定のドキュメント形式に対してのみ最適化されており、複数のドキュメント形式から知識を統合することが困難です。この課題に対処するため、私たちはXDoc（クロスドキュメント）という統一された事前学習モデルを提案します。このモデルは単一のモデルで異なるドキュメント形式を扱うことができます。パラメータ効率のために、単語埋め込み層やTransformer層などのバックボーンパラメータを異なる形式間で共有します。同時に、軽量なパラメータを持つ適応層を導入し、異なる形式間での区別を強化します。実験結果は、XDocが個別の事前学習モデルと比較して36.7%のパラメータしか持たないにもかかわらず、様々な下流タスクにおいて同等またはそれ以上の性能を達成することを示しています。これは実際の展開においてコスト効率が高いと言えます。コードと事前学習済みモデルは \url{https://aka.ms/xdoc} で公開されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ドキュメント理解

マルチタスク学習

アプローチ／フレームワーク

自然言語処理

Jingye Chen Tengchao Lv Lei Cui Cha Zhang Furu Wei

概要

最近の事前学習の潮流は、ドキュメント理解の急速な発展をもたらしています。事前学習と微調整のフレームワークは、平文テキスト、ドキュメントテキスト、ウェブテキストなど、さまざまな形式のテキスト処理に効果的に利用されています。しかし、既存の事前学習モデルは通常、特定のドキュメント形式に対してのみ最適化されており、複数のドキュメント形式から知識を統合することが困難です。この課題に対処するため、私たちはXDoc（クロスドキュメント）という統一された事前学習モデルを提案します。このモデルは単一のモデルで異なるドキュメント形式を扱うことができます。パラメータ効率のために、単語埋め込み層やTransformer層などのバックボーンパラメータを異なる形式間で共有します。同時に、軽量なパラメータを持つ適応層を導入し、異なる形式間での区別を強化します。実験結果は、XDocが個別の事前学習モデルと比較して36.7%のパラメータしか持たないにもかかわらず、様々な下流タスクにおいて同等またはそれ以上の性能を達成することを示しています。これは実際の展開においてコスト効率が高いと言えます。コードと事前学習済みモデルは \url{https://aka.ms/xdoc} で公開されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

XDoc: 様々な形式の文書理解のための統一された事前学習 | 記事 | HyperAI超神経