4ヶ月前

データセット

インテリジェントな質問応答

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Elisei Rykov Kseniia Petrushina Maksim Savkin Valerii Olisov Artem Vazhentsev Kseniia Titova Alexander Panchenko Vasily Konovalov Julia Belikova

概要

幻覚検出は、事実の正確性が求められる応用において、大規模言語モデル（LLM）の安全かつ信頼性の高い展開を実現する上で依然として根本的な課題である。既存の幻覚評価ベンチマークは多くがシーケンスレベルで動作しており、英語に限定されているため、包括的な評価に必要な細粒度かつ多言語にわたる教師情報が不足している。本研究では、14言語にわたりスパンレベルの幻覚を注釈した大規模で多言語対応のデータセット「PsiloQA」を提案する。PsiloQAは、自動化された三段階パイプラインにより構築されている：まずGPT-4oを用いてWikipediaから質問・回答ペアを生成し、次に文脈なし状態で多様なLLMから潜在的な幻覚を含む回答を引き出し、最後にGPT-4oを用いてゴールデン回答および取得された文脈と比較することで、幻覚を含むスパンを自動的に注釈する。我々は、不確実性の定量化、LLMベースのタグ付け、ファインチューニングされたエンコーダモデルを含む幅広い幻覚検出手法を評価し、エンコーダベースのモデルが全言語にわたり最も優れた性能を示すことを示した。さらに、PsiloQAは優れた多言語間一般化能力を示し、他のベンチマークへの強固な知識転送を可能にするとともに、人間による注釈データセットと比べて著しくコスト効率が良い。本研究で提示するデータセットと評価結果は、多言語環境におけるスケーラブルかつ細粒度な幻覚検出技術の発展を推進する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4ヶ月前

データセット

インテリジェントな質問応答

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Elisei Rykov Kseniia Petrushina Maksim Savkin Valerii Olisov Artem Vazhentsev Kseniia Titova Alexander Panchenko Vasily Konovalov Julia Belikova

概要

幻覚検出は、事実の正確性が求められる応用において、大規模言語モデル（LLM）の安全かつ信頼性の高い展開を実現する上で依然として根本的な課題である。既存の幻覚評価ベンチマークは多くがシーケンスレベルで動作しており、英語に限定されているため、包括的な評価に必要な細粒度かつ多言語にわたる教師情報が不足している。本研究では、14言語にわたりスパンレベルの幻覚を注釈した大規模で多言語対応のデータセット「PsiloQA」を提案する。PsiloQAは、自動化された三段階パイプラインにより構築されている：まずGPT-4oを用いてWikipediaから質問・回答ペアを生成し、次に文脈なし状態で多様なLLMから潜在的な幻覚を含む回答を引き出し、最後にGPT-4oを用いてゴールデン回答および取得された文脈と比較することで、幻覚を含むスパンを自動的に注釈する。我々は、不確実性の定量化、LLMベースのタグ付け、ファインチューニングされたエンコーダモデルを含む幅広い幻覚検出手法を評価し、エンコーダベースのモデルが全言語にわたり最も優れた性能を示すことを示した。さらに、PsiloQAは優れた多言語間一般化能力を示し、他のベンチマークへの強固な知識転送を可能にするとともに、人間による注釈データセットと比べて著しくコスト効率が良い。本研究で提示するデータセットと評価結果は、多言語環境におけるスケーラブルかつ細粒度な幻覚検出技術の発展を推進する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています