MMPR マルチモーダル推論設定データ セット

日期

1 个月前

大小

29.29 GB

机构

上海人工知能研究所
復旦大学

发布地址

github.com

MMPR(Multimodal Preference Dataset)は、上海人工知能研究所、復旦大学、南京大学、香港中文大学、清華大学、SenseTime Technologyの研究チームが2024年に共同でリリースした大規模なマルチモーダル嗜好データセットの関連論文。結果は「混合優先最適化によるマルチモーダル大規模言語モデルの推論能力の強化”。このデータ セットには、明確な正解がない 750,000 サンプルと、明確な正解がある 250 万サンプルが含まれています。サンプルは、多様性を確保するために、VQA、科学、チャート、数学、OCR、ドキュメントなどの複数の分野をカバーしています。データセットを構築する際、研究者らは、特に一般的な VQA およびドキュメント ドメインにおけるヒューリスティック ルールの制限により、偽陽性の陰性応答を避けるために特別な注意を払いました。このデータセットは、トレーニング中の潜在的な悪影響を回避しながら、マルチモーダル推論タスクにおけるモデルのパフォーマンスを向上させるように設計されています。

MMPR のデータ例。研究チームは、明確な正解がある指示については、複数の解決策をサンプリングし、正解があるものを選択応答として扱い、不正確な答えがあるものを拒否応答として扱う、正しさベースのプロセスを提案しました。研究チームは、明確な正解がない命令については、DropoutNTP を使用して拒否応答を生成することを提案しました。選択応答と拒否応答の違いは斜体で強調されています。赤いハイライトは、間違った応答を示します。

MMPR-OpenGVLab.torrent

做种 1

下载中 0

已完成 3

总下载 11

  • MMPR-OpenGVLab/
    • README.md
      2.12 KB
    • README.txt
      4.25 KB
      • data/
        • MMPR.zip
          14.63 GB
          • MMPR/
            • README.md
              14.63 GB
            • annotations.zip
              16.03 GB
            • images.zip
              29.29 GB
            • meta.json
              29.29 GB