OCR手書き認識の難しさを克服しましょう! InkSight チュートリアルはオンラインで高精度の文字起こしを実現、230,000 種の自然種の音声を含む iNatSounds データセットがリリース

特色图像

手書きの記録は、多くの人にとって日常生活のインスピレーションを記録する方法ですが、手書きの内容を電子テキストに効率的に変換する方法は常に課題でした。従来の OCR (光学式文字認識) テクノロジーでは、複雑な背景や不規則な手書き文字を処理する場合、精度が制限されることがよくあります。

この問題を解決するために、Google Research は最近、深層学習を通じて人間の読書プロセスをシミュレートし、手書きのテキストを正確に認識し、そのスタイルを完全に復元する InkSight テクノロジーを発表しました。従来の OCR とは異なり、InkSight は暗い場所や複雑な背景でも高精度を維持でき、単語レベルおよびページ全体レベルの転写をサポートしており、その効果は元の手書きとほとんど区別できません。この技術は、文書のデジタル化や文化遺産保護の分野で大きな可能性を示しています。

多くの手書き愛好家がインスピレーションを簡単にデジタル化し、貴重な文書の高精度な転写を容易にするために、InkSight チュートリアルは現在、hyper.ai 公式 Web サイトでオンラインで公開されており、ワンクリックのクローン作成で体験できます~

オンラインで実行:https://go.hyper.ai/gVh8a

手書き変換例

11 月 11 日から 11 月 15 日までの hyper.ai 公式 Web サイトの更新の概要:

* 高品質の公開データセット: 10

*厳選された高品質なチュートリアル: 6

* コミュニティ記事選択: 4 記事

* 人気のある百科事典のエントリ: 5

※11月提出締切:2

公式ウェブサイトにアクセスしてください: hyper.ai

公開データセットの選択

1. DrivingDojo 自動運転データセット

DrivingDojo 自動運転データ セットには、約 18,000 のビデオ クリップが含まれており、特に現実世界の視覚的インタラクションをシミュレートし、豊富な運転アクション、マルチエージェント インタラクション、オープンワールドの運転知識をカバーしています。このデータセットは、運転世界のインタラクティブで知識が豊富なモデルの開発を促進することを目的としています。

直接使用します:https://go.hyper.ai/Y86yY

データセットの効果の例

2. TuSimple 米国高速道路道路画像データセット

TuSimple データセットには 6,408 個の米国の高速道路の画像が含まれており、そのうち 3,626 個がトレーニングに使用され、358 個が検証に使用され、2,782 個がテストに使用されます。画像の解像度はすべて異なる気象条件で撮影されています。

直接使用します:https://go.hyper.ai/Mo6bt

データセットの効果の例

3. スポーツ分類 100スポーツ画像データセット

このデータセットは100種類のスポーツの動画セットをカバーしており、すべての画像は224x224x3のjpg形式です。データはトレーニング画像、テスト画像、検証画像に分割されます。さらに、データセットには CSV ファイルが付属しているため、研究者は画像データを簡単にロードして処理できます。

直接使用します:https://go.hyper.ai/715At

データセット画像の例

4. 観葉植物種 47 種の屋内植物データセット

このデータセットは Bing Images から収集され、47 の異なる植物種カテゴリに分類された 14,790 枚の画像が含まれています。

直接使用します:https://go.hyper.ai/v7wTX

データセット画像の例

5.BIOSCAN-5M マルチモーダル昆虫生物多様性データセット

BIOSCAN-5M は、地球規模の昆虫の生物多様性を理解および監視するために設計された、包括的なマルチモーダルな昆虫の生物多様性データセットです。このデータセットには 500 万を超える昆虫標本に関する詳細情報が含まれており、既存の画像ベースの生物学的データセットを大幅に拡張します。

直接使用します:https://go.hyper.ai/YDeuN

データセットのサンプル図

6. iNaturalist Sounds Dataset 自然種の音データセット

このデータセットは自然種オーディオ ファイルのコレクションであり、世界中の 27,000 以上のレコーダーから提供された 5.5,000 種以上の音声をキャプチャした 230,000 のオーディオ ファイルを収集しています。

直接使用します:https://go.hyper.ai/S0lg6

データセットの例

7. OpenSatMap 高解像度衛星データセット

OpenSatMap は、大規模な地図構築用に設計された高解像度の衛星データ セットで、中国の複数の都市の画像だけでなく、世界 18 か国の 50 都市以上の画像もカバーしています。画像の解像度は 20 レベルに達し、既存の衛星データ セットの中で最高です。

直接使用します:https://go.hyper.ai/PtbCB

データセットの例

8. カード画像 カード画像データセット

Cards Image は、トランプの画像データセットです。データセットには 7,624 枚のトレーニング画像、265 枚のテスト画像、265 枚の検証画像が含まれており、すべて 224x224x3 の jpg 形式です。各画像は慎重にトリミングされ、トランプ カードが 1 枚だけ表示され、そのカードが画像の 50% ピクセル以上を占めるようになります。

直接使用します:https://go.hyper.ai/DuOJb

データセットの例

9. PD12M 大規模画像テキストペアデータセット

PD12M は現在最大のパブリック ドメインの画像とテキストのペア データ セットであり、1,240 万枚の高品質のパブリック ドメインおよび CCO ライセンスの画像が含まれており、これらの画像は合成字幕とペアになっており、主にテキストから画像へのモデルをトレーニングするために使用されます。 

直接使用します:https://go.hyper.ai/xyjrD

データセットの例

10. MINT-1T テキストと画像のペアのマルチモーダル データ セット

MINT-1T データセットは、1 兆のテキスト トークンと 34 億の画像を含むマルチモーダル データセットで、これは以前の最大のオープンソース データセットの 10 倍の大きさです。このデータ セットには HTML ドキュメントだけでなく、PDF ドキュメントや ArXiv 論文も含まれており、科学ドキュメントのカバー範囲が大幅に向上しています。

直接使用します:https://go.hyper.ai/Vf3mq

データセットの例

選択された公開チュートリアル

1. InkSight による手書きテキストのデジタル化デモ

InkSight は、手書きテキストを認識してデジタル化するテクノロジーです。この技術は、人間の読み学習のプロセスを模倣することで手書き文字を継続的に書き換えて学習し、文字の見た目や意味の理解を蓄積していきます。従来の光学式文字認識 (OCR) テクノロジーと比較して、InkSight は、複雑な背景、ぼやけ、または低照度の条件で手書きテキストを処理する場合に、より高い認識精度を示します。

このプロジェクトでは、Gradio インターフェイスを通じてフロントエンドの対話型インターフェイスを生成でき、関連するモデルと依存関係がデプロイされており、ワンクリックで手書き変換を体験できます。

オンラインで実行:https://go.hyper.ai/gVh8a

手書き変換例

2. CharacterGen は 1 枚の画像から高品質の 3D キャラクターを生成します

CharacterGen は、単一の入力イメージを取得し、下流のリギングやアニメーションのワークフローで直接使用できる、高品質で一貫した外観を持つ 3D ポーズが統合されたキャラクター メッシュを生成します。

このチュートリアルは、CharacterGen のワンクリック実行デモです。クローンを作成して起動することで、高品質の 3D キャラクターの生成を体験できます。

オンラインで実行:https://go.hyper.ai/jtVAF

デモの例

3. ワンクリック導入Ministral-8B-Instruct-2410

Mistral-8B は、Mistral AI チームによって開発された言語モデルで、特にエッジ デバイスとエッジ コンピューティングのシナリオ向けに設計されており、質問への回答、さまざまな言語でのテキストの翻訳、文書の概要の作成、記事やレポートの作成の支援など、複数のタスクを実行できます。 。 待って。スタッガード スライディング ウィンドウ アテンション モードを採用しているため、モデルの推論速度が向上するだけでなく、メモリ使用量も大幅に削減されるため、リソースに制約のあるエッジ デバイスでの実行に最適です。

公式 Web サイトにアクセスしてコンテナーをクローンして起動し、API アドレスを直接コピーすると、モデルと通信できるようになります。

オンラインで実行:https://go.hyper.ai/wMQWN

モデル例

4. VASP チュートリアル: 1-1. 孤立酸素原子の DFT 計算

VASP は、電子構造計算および量子力学・分子動力学シミュレーションのためのソフトウェア パッケージです。現在、材料シミュレーションおよび計算材料科学研究において最も人気のある商用ソフトウェアの 1 つであり、その高精度と強力な機能により、研究者が材料特性を予測および設計するための重要なツールとなっており、固体物理学や材料科学で広く使用されています。 、化学、分子動力学などの分野。

このチュートリアルは、VASP 公式チュートリアルの最初の部分です: 孤立した酸素原子の DFT 計算。以下のリンクをクリックし、チュートリアルのガイドラインに従って、DFT ハイパフォーマンス コンピューティングを最初から始めてください。

オンラインで実行:https://go.hyper.ai/pa2NX

💡安定拡散チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] にメモし、グループに参加してさまざまな技術的な問題について話し合い、アプリケーションの効果を共有してください。

注目のコミュニティ記事

1. 初め! 4 つの主要大学が共同で医薬品研究開発用の大規模言語モデル Y-Mol を立ち上げ、全体的なパフォーマンスが LLaMA2 をリード

医薬品の研究開発には統一された標準パラダイムが存在しないため、研究開発のプロセスは複雑で正確なデータの注釈が必要となり、その結果、医薬品の研究開発分野における大規模な言語モデルの適用は制限されています。これに関して、4 つの主要な大学研究チームが共同で、マルチスケールの生物医学的知識に基づいた大規模言語モデルである Y-Mol を提案しました。さまざまなテキスト コーパスや指示に合わせて微調整することができ、医薬品開発におけるモデルのパフォーマンスと可能性を強化します。この記事は研究論文の詳細な解釈と共有です。

レポート全体を表示します。https://go.hyper.ai/14X5I

2. ハーバード大学哲学部からタンパク質設計修士まで、David Baker 氏: AlphaFold のおかげでディープラーニングの力を深く認識できました

David Baker は、タンパク質設計の分野における世界クラスのマスターとして、多くの深層学習ツールをオープンソース化しており、「学術論文王」でもあり、タンパク質分野で 700 以上、合計 177,000 本の研究論文を発表しています。引用。 David Bake は創設者として、病気治療、食品生産、材料科学などの分野をカバーする 21 の企業の発展に直接関与しています。クリックして読んで、デビッド・ベイカーの伝説的な経験について学びましょう。

レポート全体を表示します。https://go.hyper.ai/ItxvG

3. 清華大学の研究チームは、20 以上の時空間データ セットと 1 億 3,000 万以上のサンプル ポイントを収集し、生成 AI に基づく 3 つの都市複雑システム モデリング手法を提案しました。

HyperAI と HyperAI が共同で開催する COSCon'24 AI for Science フォーラムで、清華大学電子工学部都市科学コンピューティング研究センターの博士研究員である丁 静濤氏が「AI 主導の都市」というテーマで講演しました。複雑システムモデリングと法則発見」をテーマに、複雑都市システムの時空間生成モデリング手法とチームの最新の研究成果について詳しく説明しました。役立つ情報が満載ですので、クリックして読んでください。

レポート全体を表示します。https://go.hyper.ai/qaDYE

4. 黄仁勲氏が孫正義氏と語る:日本の新たな AI パイ、Arm の AI への野心、そして東アジアにおける NVIDIA の新たなチャンス

11月13日、黄仁勲氏と孫正義氏は日本でオフライン会談を行い、孫正義氏のNVIDIAへの過去の投資を振り返り、日本のAIの開発について共同で議論した。黄仁勲氏は、孫正義氏は「あらゆる世代の技術革新において勝者を選び、勝者と協力する世界で唯一の起業家でありイノベーターである」と率直に語った。本稿では両者の過去の論争と現在の開発方向を整理する。詳細については、クリックして読んでください。

レポート全体を表示します。https://go.hyper.ai/hLKbG

人気のある百科事典の項目を厳選

1. UNA 調整フレームワーク

2. デジタルカズン

3. モデルの折りたたみモデルの折りたたみ

4. 勾配ブースティング勾配ブースティング

5. 周波数の原理

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://go.hyper.ai/wiki

主要な人工知能学会をワンストップで追跡:https://go.hyper.ai/event

上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。

また来週お会いしましょう!

HyperAIについて Hyper.ai

HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1,300 を超える公開データセットに対して国内の高速ダウンロード ノードを提供

* 400 以上の古典的で人気のあるオンライン チュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai/

最後に、「クリエイター インセンティブ プログラム」をおすすめします。興味のあるお友達はコードをスキャンして参加してください。