10,000文字の長文出力のボトルネックを突破!清華大学のオープンソース LongWriter-6k データセットが 7 つの CCF クラス A のトップカンファレンスに提出されようとしています。

特色图像

現在の長いコンテキストのラージ モデルは大量のテキストの入力を処理できますが、長い出力例が不足しているため、長いコンテンツを生成できません。この問題を解決するには、清華大学の研究チームは、大規模モデルの最大出力ウィンドウ サイズを 10,000 ワード以上に拡張できる LongWriter-6k データセットを構築しました。

LongWriter-6k によってトレーニングされたモデルの助けを借りて、小説創作において起伏と長編を備えた素晴らしい小説を生成できるだけでなく、読者が学術研究の観点から壮大な文学の世界に浸ることができます。詳細な研究レポートと論文レビューを生成し、科学研究者に豊富な参考資料を提供します。

hyper.ai の公式 Web サイトでは、オンライン利用にも対応した「LongWriter-6k ロングコンテキスト出力データセット」を公開しました。記事を下にスクロールしてリンクを取得してください~

8 月 19 日から 8 月 23 日までの hyper.ai 公式 Web サイトの更新の概要:

* 高品質の公開データセット: 10

* 高品質なチュートリアルのセレクション: 2

* 厳選されたコミュニティ記事: 2 記事

* 人気のある百科事典のエントリ: 5

※9月締切:7日

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. LongWriter-6k の長いコンテキスト出力データ セット

このデータ セットには、出力長が 2k ~ 32k ワード (英語と中国語を含む) の 6k SFT データが含まれており、LLM のトレーニングをサポートし、最大出力ウィンドウ サイズを 10,000 語以上に拡張できます。

直接使用します:https://go.hyper.ai/77byR

2. EVOBC Oracle 文字進化データ セット

このデータセットには、研究者らが権威ある文書や Web サイトから体系的に収集した 6 つの歴史段階の古代文書が含まれており、13,714 の異なる文字カテゴリを表す 229,170 枚の画像で構成されています。

直接使用します:https://go.hyper.ai/oe5fU

3. HUST-OBS オラクル認識データセット

このデータセットには、書籍、Web サイト、既存のデータベースを含む 3 つの異なるソースからの 140,000 を超える画像が含まれており、これまでで最大の OBS 識別および復号化データセットの 1 つとなっています。

直接使用します:https://go.hyper.ai/bXxx1

4. データセットを微調整するための Alpaca-Cleaned コマンド

Alpaca-Cleaned データセットは、2024 年にスタンフォード大学によってリリースされた元の Alpaca データセットのクリーンアップされたバージョンです。このデータセットは、幻覚反応、マージされた命令、空の出力、一貫性のない入力フィールドなど、元の Alpaca のいくつかの問題を解決し、それによってデータの品質と一貫性が向上します。

直接使用します:https://go.hyper.ai/yNlAa

5. Al Medical Chatbot 医療会話データセット

これは医療チャットボットを実行するために設計された実験的なデータセットで、患者と医師の間の 256,916 件の会話が含まれています。

直接使用します:https://go.hyper.ai/kaGzv

6. Openstory++ 大規模イメージインスタンスデータセット

Openstory++ は、長いテキスト コンテキストでインスタンスの一貫性を維持することが難しい既存の画像生成モデルの問題を解決するために特別に設計されています。画像とテキストのインスタンスレベルの注釈を組み合わせて豊富なリソースを提供し、長いテキストのコンテキストで一貫性の高い画像を生成できるようにします。

直接使用します:https://go.hyper.ai/no3E7

7. MedTrinity-25M 大規模マルチモーダル医療データセット

MedTrinity-25M には、10 の画像モダリティをカバーする 2,500 万を超える医療画像が含まれており、65 を超える疾患に注釈が付けられています。このデータ セットには、豊富なグローバルおよびローカル アノテーションが含まれているだけでなく、複数のモダリティ (CT、MRI、X 線など) のマルチレベル情報アノテーションも統合されています。このデータセットは、医療ベースの人工知能モデルの事前トレーニングを促進しながら、医療画像処理、レポート生成、分類、セグメンテーションなどのマルチモーダル タスクに多大なサポートを提供します。

直接使用します:https://go.hyper.ai/JCSJP

8. 1920 レイダーウェイトタロット タロット画像データセット

このデータ セットには、オリジナルのライダー ウェイト タロット デッキの 78 枚のカードの画像と関連テキストの説明が含まれており、研究者やアーティストにタロット カードの芸術と象徴的な意味を探索するための豊富なリソースを提供し、タロットを生成するモデルをトレーニングするために使用できます。カード スタイルのイメージ。

直接使用します:https://go.hyper.ai/8bd2R

9. Waterloo Exploration 大規模画質評価データベース
データベースには 4,744 枚のオリジナルの自然画像と、これらのオリジナル画像から作成された 94,880 枚の歪んだ画像が含まれており、画質評価モデルの一般化能力をテストするために使用できます。
直接使用します:https://go.hyper.ai/m5mhN

10. SWE-bench 検証済みコード生成評価ベンチマーク データセット

このベンチマークは、既存の SWE ベンチの改良版 (サブセット) であり、現実世界のソフトウェアの問題を解決する AI モデルの能力をより確実に評価するように設計されています。

直接使用します:https://go.hyper.ai/oxOBY

その他の公開データセットについては、以下をご覧ください。

https://hyper.ai/datasets

選択された公開チュートリアル

1. ComfyUl AuraFlow Vincent ダイアグラム ワークフロー デモ

このモデルは、GenEval で最先端の結果を達成し、Vincentian グラフ タスクでのより高い処理効率とより優れた詳細表示を実現します。このチュートリアルでは、ComfyUI を使用して AuraFlow Vincent ダイアグラム モデルをデプロイします。モデルと関連する環境設定は構築されており、ワンクリックで推論用に複製できます。

直接使用します:https://go.hyper.ai/KpI4B

2. Whisper Web オンライン音声認識ツール

Whisper は音声認識用の ML に基づいており、WebGPU によって高速化できます。オンライン/ローカルのオーディオ ファイルのアップロードと 100 以上の言語での即時録音をサポートし、認識されたテキストは TXT および JSON ファイル形式へのエクスポートをサポートし、英語に直接翻訳することもできます。このチュートリアルは、GitHub 上のオープン ソース プロジェクト Whisper Web に基づいており、Whisper を使用してブラウザで直接実行されます。

直接使用します:https://go.hyper.ai/N3iwm

注目のコミュニティ記事

1. 化学療法抵抗性と腫瘍再発と闘いましょう!山東大学の研究チームは AI を使用して乳がん幹細胞に対する強力な防御線を構築

最近、山東大学のLv Haiquan氏、Sun Rong氏、Zhang Kai氏、山西医科大学のMei Qi氏らは、Helix Matrix Companyおよび他の研究チームと協力して、機械学習テクノロジーを使用し、mRNAの分析に基づいて画期的な進歩を遂げました。らは、乳がん患者サンプルのがん幹細胞の BCSC サインを特徴付ける新しいアプローチの開発に成功しました。この記事は研究論文の詳細な解釈と共有です。

レポート全体を表示します。https://go.hyper.ai/SPAjK

2. 上海交通大学のZhou Bingxin博士: 希少な生物学的データの課題を解決し、グラフニューラルネットワークがタンパク質の理解と生成を再構築する

上海交通大学 AI for Bioengineering サマー スクールでは、上海交通大学の Zhou Bingxin 博士が、「グラフ ニューラル ネットワークとタンパク質の構造表現」をテーマに、タンパク質の予測と生成におけるグラフ ニューラル ネットワークの定義、利点、応用について共有しました。 ". この分野の最先端のアプリケーション。この記事は、Zhou Bingxin 博士が共有した記録のエッセンスです。

レポート全体を表示します。https://go.hyper.ai/GjXi5

3. ACL2024 メインカンファレンスに選ばれました InstructProtein: 知識命令を使用したタンパク質言語と人間の言語の調整

浙江大学の研究チームは、知識命令を使用してタンパク質言語と人間の言語を整合させる InstructProtein を提案し、生物学的配列を大規模な言語モデルに統合する能力を実証しました。この記事は研究論文の詳細な解釈と共有です。

レポート全体を表示します。https://go.hyper.ai/GjXi5

人気のある百科事典の項目を厳選

1. 対応のある t 検定対応のある t 検定

2. 相互ソーティング融合 RRF

3. パレートフロント パレートフロント

4. 変分オートエンコーダ VAE

5. データの拡張

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://go.hyper.ai/wiki

主要な人工知能学会をワンストップで追跡:https://go.hyper.ai/event

上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。

また来週お会いしましょう!

HyperAIについて Hyper.ai

HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1,300 を超える公開データセットに対して国内の高速ダウンロード ノードを提供

* 400 以上の古典的で人気のあるオンライン チュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai