5.2k スター! OCR のジレンマを打破するスーパー イノベーターが登場。多言語医療大規模モデルはオープンソースで、コーパスとベンチマーク データ セットはダウンロード可能です。

デジタル化が急速に進む今日、OCR(光学式文字認識)技術は普及してきましたが、依然として多くのボトルネックが存在します。従来のOCRモデルでは、複雑で変化しやすい状況に直面すると、認識精度が大幅に低下し、処理フローや操作手順が非常に煩雑になり、作業効率が大幅に低下します。
世界初のユニバーサル エンドツーエンド OCR モデル GOT-OCR-2.0 が最近正式にオープンソース化されました。これにより、低画質、複雑な背景、手書きテキスト認識といった従来の OCR の限界が解決されます。このモデルは、hyper.ai 公式 Web サイトでデモ チュートリアルを提供しています。複雑なインストール手順をスキップして、直接クローンを作成して開始してください。
オンラインで実行:https://go.hyper.ai/JVVKQ
10 月 1 日から 10 月 12 日までの hyper.ai 公式 Web サイトの更新の概要:
* 高品質なチュートリアルのセレクション: 3
* 高品質の公開データセット: 10
* コミュニティ記事の選択: 5 記事
* 人気のある百科事典のエントリ: 5
※10月の提出締切:5日
公式ウェブサイトにアクセスしてください:ハイパーアイ
選択された公開チュートリアル
1. GOT-OCR-2.0 世界初のユニバーサルエンドツーエンドOCRモデル
GOT-OCR-2.0 は、光学式文字認識 (OCR) の精度と効率の向上に焦点を当てた、一般 OCR 理論に基づいた統合エンドツーエンド モデルです。統合アーキテクチャを採用しており、テキストの多様性と複雑さを効率的に処理できます。 GOT-OCR 2.0 は、シーン テキスト認識をサポートするだけでなく、複数ページのドキュメントも処理できるため、OCR 分野にさらなる柔軟性をもたらします。チュートリアルに従ってコンテナを実行し、APIアドレスを直接コピーしてモデル上の推論を体験します。
直接使用します:https://go.hyper.ai/JVVKQ

2. IC-Light は、画像照明ツールであり、自然な背景融合の代替品です。
IC-Light は Imusing Consistent Light の略で、機械学習モデルを通じて画像の再照明を実現することを目的としたプロジェクトです。これは、テキスト条件照明モデルと背景条件モデルの 2 つの主なタイプのモデルを提供し、それぞれテキスト プロンプトまたは背景コンテンツに従って前景画像の照明を調整します。
このプロジェクトは、Gradio インターフェイスを通じてフロントエンドの対話型インターフェイスを生成でき、関連するモデルと依存関係がデプロイされており、ワンクリックで開始できます。
直接使用します:https://go.hyper.ai/1Y0PQ

3. Fish Speech v1.4 サウンド クローンテキスト読み上げツールのデモ
Fish Speech は、2024 年に Fish Audio によって開発された、高品質で自然な音声を生成できるテキスト読み上げ (TTS) モデルです。 v1.4にアップグレードされたこのモデルは、約70万時間のデータトレーニングを経て、中国語、日本語、英語を含む8言語を習得することができ、その言語処理能力は人間レベルに近く、音声表現も優れています。豊かで多様。
このチュートリアルでは、モデルを最新バージョンに更新し、環境をデプロイしました。チュートリアルのガイドラインに従って、音声クローン作成またはテキスト読み上げタスクを直接実行できます。
直接使用します:https://go.hyper.ai/t7O8m
公開データセットの選択
このデータセットには、英語、中国語、日本語、フランス語、ロシア語、スペイン語の主要 6 言語をカバーする約 255 億トークンの医療予測データが含まれており、さらに多くの言語のサポートは現在も継続的に更新および拡張されています。
直接使用します:https://go.hyper.ai/jXv0r

2. MMedBench多言語医療技能試験ベンチマークデータセット
このデータセットは、医療分野における多言語モデルの開発を評価するために設計されており、6 つの言語と 21 の医療サブ分野をカバーしています。 MMedBench のすべての質問は、さまざまな国の医療検査質問バンクから直接得られたものであるため、評価の正確性と信頼性が保証され、各国の医療行為ガイドラインの違いによって引き起こされる診断上の理解の逸脱が回避されます。
直接使用します:https://go.hyper.ai/8X9xD

データセットには、トレーニング セットの 2,747 枚の画像とテスト セットの 1,178 枚の画像を含む、合計 3,925 枚のマラリア スライド画像が含まれています。画像に加えて、画像がキャプチャされたスライド、顕微鏡のステージマイクロメーターの読み取り値、および対物レンズの設定が記録され、スライドごとに最大 40 枚の画像がキャプチャされます。
直接使用します:https://go.hyper.ai/9oBFv

HelpSteer2 には約 10,000 ペアの応答が含まれており、既存の嗜好データセットよりも一桁小さいにもかかわらず、報酬モデルのトレーニングにおいて非常に効率的です。このデータセットは、大規模言語モデル (LLM) が人間の好みに合致した高品質な回答を生成できるように導く報酬モデルをトレーニングするように設計されています。
直接使用します:https://go.hyper.ai/YePhv
このデータセットは、さまざまな言語的、認知的、文化的文脈における人工知能モデルのパフォーマンスを評価し、改善するように設計されています。 MMMLU は、大規模なマルチタスク言語理解 (MMLU) ベンチマークに基づいて構築されており、初歩的な知識から法律、物理学、歴史、コンピューティング科学に至るまで、57 の異なる主題分野のタスクが含まれています。およびその他の高度な専門科目。
直接使用します:https://go.hyper.ai/TY7aR
6. テスト セットを生成するための FRAMES ベンチマーク取得の機能強化
このデータセットには、2 ~ 15 個の Wikipedia 記事の情報を必要とする 824 個の難しいマルチホップ問題が含まれています。質問には、歴史、スポーツ、科学、動物、健康などを含むさまざまなトピックが含まれており、各質問には数値、表形式、複数の制約、時間的、後処理などの推論タイプがラベル付けされています。このデータセットは、各質問に対する重要な回答と関連する Wikipedia 記事も提供します。
直接使用します:https://go.hyper.ai/zp5WQ
7. MedScribble マルチ画像セグメンテーション生物医学タスク データ セット
このデータセットには、研究チームが収集した 3 人のアノテーターによる手書きの落書きが含まれており、14 の異なるオープンアクセスの生物医学画像セグメンテーション データセットから 14 のセグメンテーション タスクを完了しました。 MedScrible には合計 64 の 2D 画像セグメンテーション ペアが含まれており、各画像セグメンテーション ペアには 3 セットの落書き注釈があります。
直接使用します:https://go.hyper.ai/X901T
8. CDFSOD ベンチマーク クロスドメインの小さなサンプルのオブジェクト検出ベンチマーク データ セット
このプロジェクトは、ソース ドメインとターゲット ドメインの間に大きなドメインの違いがある場合の小さなサンプル オブジェクトの検出の問題を解決することを目的としています。これには、アルゴリズム評価用のデータセットに加えて、ドメインの違いを測定するためのスタイル、クラス間分散 (ICV)、および定義不可能な境界 (IB) などのデータセット指標が含まれています。
直接使用します:https://go.hyper.ai/YQsnW
9. CLVR Jaco Play Dataset リモート コントロール ロボット フラグメント データ セット
このデータセットは、ロボットの遠隔制御、自然言語処理、人間とコンピューターの相互作用などの分野を研究する科学者や開発者にとって非常に貴重なリソースです。遠隔操作ロボット Jaco 2 の 1,085 個のクリップと、対応する言語の注釈が提供されます。
直接使用します:https://go.hyper.ai/Xde69
10. バークレー ケーブル ルーティングの多段階ロボット ケーブル タスク データ セット
Berkeley Cable Routing データセットは、特にケーブル配線タスクに適用される、多段階のロボット操作タスクを研究するために使用されるデータセットです。このタスクでは、ロボットが一連のクランプにケーブルを通す必要があります。これは、変形可能なオブジェクトの取り扱い、視覚認識ループの閉鎖、複数のステップで構成される拡張動作の処理など、複雑な多段階のロボット操作シナリオの課題を表しています。
直接使用します:https://go.hyper.ai/aiML0
その他の公開データセットについては、以下をご覧ください。
注目のコミュニティ記事
1. Natureサブマガジンに掲載される!論文の筆頭著者は、ウェット実験データの不足の問題を解決するためのタンパク質言語モデルの小サンプル学習方法を詳細に説明しています。
生放送の「Meet AI4S」シリーズの第 3 回エピソードでは、上海交通大学自然科学研究所の博士研究員である周子儀氏とホン・リアン教授の研究グループが、「小型」というテーマに関するチームの最新の研究結果を共有しました。タンパク質言語モデルの学習方法の例」と AI 支援の指向進化の新しいアイデアについて説明します。この記事は彼のスピーチのエッセンスであり、有益な情報が満載です。
完全な概要を参照してください。https://go.hyper.ai/MzXfg
2. ジェフ・ディーンはGoogleの新しい研究が好き:クジラの生物音響モデルは8種類のクジラを識別できる
Google Research チームがクジラの生物音響の新しいモデルを開発。このモデルは、現在知られている 94 種のクジラのうち 8 種を識別できます。この記事は、論文の詳細な解釈と共有です。
レポート全体を表示します。https://go.hyper.ai/1l2HO
3. エージェント心理クリニックがオンラインになりました!上海交通大学のチームは、1.3Kのうつ病相談の会話に基づいて、初めてうつ病を診断できる大規模モデルの対話エージェントを構築した
上海交通大学 X-LANCE 研究室のウー・メンユエ教師のチームは、天橋脳科学研究所および ThetaAI Company と協力して、自動化された大規模モデル対話エージェント シミュレーション システムであるエージェント心理学クリニック AMC を構築しました。うつ。この記事は研究論文の詳細な解釈と共有です。
レポート全体を表示します。https://go.hyper.ai/AdjI5
4. 動的なタンパク質のドッキング予測を実現!上海交通大学/星耀科技/中山大学などが共同で幾何学深度生成モデルDynamicBindを立ち上げ
上海交通大学のZheng Shuangjia氏の研究グループは、Xingyao Technology、中山大学薬学部、ライス大学と協力して、タンパク質の動的ドッキング用に設計された幾何学的深さ生成モデルであるDynamicBindを提案し、深層学習ベースのモデルを提供しました。ポストAlphaFold時代の医薬品開発、タンパク質の動的変化を考慮した新しい研究パラダイム。この記事は研究論文の詳細な解釈と共有です。
レポート全体を表示します。https://go.hyper.ai/nErwd
5. AlphaFold がノーベル賞を受賞、DeepMind CEO の受賞スピーチ: 最高の科学者と AI が驚くべき仕事を達成する
デビッド・ベイカー氏、デミス・ハサビス氏、ジョン・M・ジャンパー氏が2024年のノーベル化学賞を受賞した。 DeepMind CEO の Demis Hassabis 氏は、「これらの AI ツールを使用する最高の科学者は、驚くべき研究を達成できるでしょう。」と述べ、David Baker 氏も、「この記事は、ノーベル化学賞受賞者に敬意を表するものです。」と率直に述べました。詳細なレポート。
レポート全体を表示します。https://go.hyper.ai/UPpuB
人気のある百科事典の項目を厳選
1. トランスモデル
2. 変分オートエンコーダ VAE
3. 人工ニューラルネットワーク NN
4. パレートフロント パレートフロント
5. 大規模マルチタスク言語理解MMLU
ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

主要な人工知能学会をワンストップで追跡:https://go.hyper.ai/event
上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。
また来週お会いしましょう!
HyperAIについて Hyper.ai
HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。
* 1,300 を超える公開データセットに対して国内の高速ダウンロード ノードを提供
* 400 以上の古典的で人気のあるオンライン チュートリアルが含まれています
* 100 以上の AI4Science 論文ケースを解釈
* 500 以上の関連用語クエリをサポート
*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします
学習の旅を始めるには、公式 Web サイトにアクセスしてください。