Resources - 人間からのフィードバックを用いた強化学習による、有用かつ無害なアシスタントの訓練 | 記事 | HyperAI超神経

HyperAI

メイン

GPU

コンソール
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers
人間からのフィードバックを用いた強化学習による、有用かつ無害なアシスタントの訓練

Discordで議論

9ヶ月前

Preference Modeling

概要論文リソース

miaoyuchun/inform15

pytorch

ganjinzero/rrhf806

pytorch

ethz-spylab/rlhf_trojan_competition117

pytorch

anthropics/hh-rlhf1.8k

公式

人工知能の未来を築く

概要

当社についてデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers
人間からのフィードバックを用いた強化学習による、有用かつ無害なアシスタントの訓練

Discordで議論

9ヶ月前

Preference Modeling

概要論文リソース

miaoyuchun/inform15

pytorch

ganjinzero/rrhf806

pytorch

ethz-spylab/rlhf_trojan_competition117

pytorch

anthropics/hh-rlhf1.8k

公式

人工知能の未来を築く

概要

当社についてデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)