8ヶ月前

自然言語処理

データセット

ドキュメント理解

AIインフラストラクチャ

自然言語処理

Laida Kushnareva Tatiana Gaintseva German Magai Sergei Barannikov Dmitry Abulkhanov Kristian Kuznetsov Eduard Tulchinskii Irina Piontkovskaya Sergey Nikolenko

概要

大規模言語モデルの急速な発展により、人々はますます人間が書いた文章から機械生成された文章に移行するテキストに遭遇することが増えています。このようなテキストの人間作成部分と機械生成部分の境界を検出することは、まだ十分な研究が行われていない難問です。本研究では、このギャップを埋めることを目指し、最先端の人工テキスト検出分類器を境界検出設定に適応させるためのいくつかの方法を検討します。私たちは、複数のトピックに関する短いテキストを含む「Real or Fake」テキストベンチマークを使用して、すべての検出器を限界まで評価します。この多様性を利用して、クロスドメインおよびクロスモデル設定におけるすべての検出器の堅牢性を深く調査し、将来の研究のために基準と洞察を提供します。特に、パープレキシティに基づく境界検出アプローチは、ドメイン固有データの特殊性に対して監督学習によるRoBERTaモデルの微調整よりも堅牢であることがわかりました。また、どのテキスト特徴が境界検出アルゴリズムを混乱させ、クロスドメイン設定での性能に悪影響を与えるかも明らかになりました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

自然言語処理

データセット

ドキュメント理解

AIインフラストラクチャ

自然言語処理

Laida Kushnareva Tatiana Gaintseva German Magai Sergei Barannikov Dmitry Abulkhanov Kristian Kuznetsov Eduard Tulchinskii Irina Piontkovskaya Sergey Nikolenko

概要

大規模言語モデルの急速な発展により、人々はますます人間が書いた文章から機械生成された文章に移行するテキストに遭遇することが増えています。このようなテキストの人間作成部分と機械生成部分の境界を検出することは、まだ十分な研究が行われていない難問です。本研究では、このギャップを埋めることを目指し、最先端の人工テキスト検出分類器を境界検出設定に適応させるためのいくつかの方法を検討します。私たちは、複数のトピックに関する短いテキストを含む「Real or Fake」テキストベンチマークを使用して、すべての検出器を限界まで評価します。この多様性を利用して、クロスドメインおよびクロスモデル設定におけるすべての検出器の堅牢性を深く調査し、将来の研究のために基準と洞察を提供します。特に、パープレキシティに基づく境界検出アプローチは、ドメイン固有データの特殊性に対して監督学習によるRoBERTaモデルの微調整よりも堅牢であることがわかりました。また、どのテキスト特徴が境界検出アルゴリズムを混乱させ、クロスドメイン設定での性能に悪影響を与えるかも明らかになりました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています