HyperAIHyperAI

Command Palette

Search for a command to run...

CamemBERT:おいしいフランス語言語モデル

Louis Martin Benjamin Muller Pedro Javier Ortiz Suárez Yoann Dupont Laurent Romary Éric Villemonte de la Clergerie Djamé Seddah Benoît Sagot

概要

事前学習済み言語モデルは現在、自然言語処理(NLP)分野で広く普及している。その成功は著しいが、現存する多くのモデルは英語データ上で学習されているか、あるいは複数言語のデータを連結して学習している。このため、英語以外の言語においてこれらのモデルを実用的に活用することは極めて制限されている。本研究では、フランス語を例に挙げ、単一言語に特化したTransformerベースの言語モデルの訓練可能性を検討し、品詞タグ付け、依存構文解析、固有表現認識、自然言語推論といった下流タスクにおいてモデルの性能を評価した。その結果、Wikipediaデータよりもウェブクロールデータの使用がより適していることが明らかになった。さらに驚くべきことに、比較的小規模なウェブクロールデータセット(4GB)を用いても、大規模なデータセット(130GB以上)を用いた場合と同等の性能が達成できることを示した。本研究で開発した最良のモデルであるCamemBERTは、すべての4つの下流タスクにおいて、既存の最先端性能を達成または上回った。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています