Command Palette

Search for a command to run...

Baiduが動き出しました!同社のOCRモデル「PaddleOCR-VL」は、パイプラインやエンドツーエンド方式の限界を打ち破り、顔感情認識データセットはAIによる表情理解を可能にします。

Featured Image

現代の文書コンテンツの複雑さは、解析技術にとってより大きな課題となっています。文書には、長いテキスト、複雑なグラフ、専門的な数式、複数の言語が組み込まれ、不規則なレイアウトになっている場合が多くあります。そのため、効率的かつ正確な文書解析は、不可欠な主要技術となっています。

文書解析の分野における現在の研究は、主に 2 つの技術的な道筋に沿っています。1 つのアプローチは、モジュラー エキスパート モデルに基づくパイプライン方式を使用することです。これらの方法は特定のタスクでは安定して動作しますが、システム アーキテクチャが複雑で、処理段階ごとにエラーが蓄積され、非常に複雑なドキュメントを処理する場合の機能には固有の上限があるなど、欠点がますます明らかになりつつあります。それ2 番目は、マルチモーダルな大規模モデルに基づくエンドツーエンドのアプローチです。ワークフローを簡素化し、全体最適化を実現するように設計されていますが、実用化においては、長い文書や複雑なレイアウトを扱う際に、テキスト順序が乱れたり、「錯覚的な」コンテンツが生成されたりするなど、しばしば問題に遭遇します。さらに、長いシーケンスの出力にかかる膨大な計算コストは、実世界のシナリオへの導入を困難にしています。

これらの現実世界の課題に基づいてBaidu は、ビジュアル言語モデルに基づく高性能かつリソース効率の高いドキュメント解析モデルである PaddleOCR-VL をリリースしました。このモデルの中核コンポーネントは、コンパクトで強力なビジュアル言語モデルPaddleOCR-VL-0.9Bです。NaViTスタイルの動的解像度ビジュアルエンコーダーとERNIE-4.5-0.3B言語モデルを統合することで、正確な要素認識を実現します。この革新的なモデルは、109言語を効率的にサポートし、テキスト、表、数式、グラフなどの複雑な要素の認識に優れており、リソース消費は極めて低く抑えられています。

包括的な評価を通じてPaddleOCR-VL は、ページレベルのドキュメント解析と要素レベルの認識タスクの両方で最先端 (SOTA) のパフォーマンスを達成しました。これは、トップクラスのビジュアル言語モデルと比較して強力な競争力を示し、実際のシナリオでの展開と適用により適しています。

HyperAI の Web サイトには現在、「PaddleOCR-VL: マルチモーダル ドキュメント解析」が掲載されていますので、ぜひお試しください。

オンラインでの使用:https://go.hyper.ai/3OjbB

11月17日から11月21日までのhyper.ai公式ウェブサイトの更新の概要は次のとおりです。

* 高品質の公開データセット: 6

* 高品質なチュートリアルのセレクション: 3

* 今週のおすすめ論文:5

* コミュニティ記事の解釈:5件

* 人気のある百科事典のエントリ: 5

12月締め切りのトップカンファレンス:2

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. HumanSenseベンチマークデータセット

HumanSenseベンチマークは、西安交通大学がAnt Groupと共同で公開した人間の知覚評価ベンチマークデータセットです。視覚、音声、テキストなどのマルチモーダル情報を融合したモデルの実世界インタラクション能力を包括的に測定することを目的としています。

直接使用します:https://go.hyper.ai/9drzT

2. EditReward-Bench画像編集評価データセット

EditReward-Benchは、中国科学技術大学、中国科学院自動化研究所、北京人工知能研究院が共同で公開した、画像編集報酬モデルの体系的な評価ベンチマークです。報酬モデルの識別能力を、指示遵守、一貫性維持、全体的な品質という3つの主要な側面から包括的に評価することを目的としています。このデータセットには、専門家による注釈付きの嗜好比較データポイントが3,072点含まれており、一般的なシナリオから複雑なシナリオまで、実世界のアプリケーションシナリオを包括的にカバーしています。

直接使用します:https://go.hyper.ai/OEVRn

3. UNO-Bench フルモーダル評価ベンチマークデータセット

MeituanのLongCatチームがリリースしたUNO-Benchは、ユニモーダルおよびマルチモーダル理解能力を効率的に評価するために設計された、初の統合マルチモーダル評価ベンチマークです。データセットには、98%のクロスモーダル解決能力を持つ1250のマルチモーダルサンプルと、2480のユニモーダルサンプルが含まれており、44種類のタスクと5種類のモーダリティの組み合わせをカバーしています。また、データセットには6種類の質問タイプの自動評価をサポートする汎用スコアリングモデルが含まれており、マルチモーダルタスクの統一的な評価基準を提供します。

直接使用します:https://go.hyper.ai/gIcIK

4. VERA音声推論評価データセット

VERAは、デューク大学がAdobeと共同で公開した大規模マルチタスク音声データセットです。音声ネイティブ環境下における大規模モデルの推論能力を評価するために設計されています。すべてのサンプルはネイティブ音声で提示され、音声はBoson Higgs Audio 2によって合成されているため、一貫性があり、明瞭で高品質な音声パフォーマンスが保証されています。

直接使用します:https://go.hyper.ai/AfgW5

5. 顔感情認識データセット

顔感情認識は、顔感情分類タスクのためのデータセットであり、様々な感情認識モデルの学習と評価を目的として設計されています。このデータセットは、怒り、嫌悪、恐怖、幸福、中立、悲しみ、驚きの7つの基本感情をカバーしています。データは公開されているFER2013およびRAF-DBデータセットに基づいて統合されており、顔画像はHaarCascade(信頼度約0.8)を用いてフィルタリングされ、ノイズ除去と画質向上が行われています。

直接使用します:https://go.hyper.ai/z5x5N

データセットの例

6. AutoDock-GPU_Outputドッキング結果データセット

AutoDock-GPU_Outputは、AutoDock-GPUの実行によって生成されるサンプルのドッキング出力ログ(.dlg)です。結合エネルギー、コンフォメーションのクラスタリング、最終的なリガンドの姿勢などの情報が含まれています。ドッキング結果の解析のための参照データセットとして機能し、結果の解析方法を学習したり、環境設定が正常かどうかを確認したりするために使用できます。

直接使用します:https://go.hyper.ai/zz7wV

選択された公開チュートリアル

1. PaddleOCR-VL: マルチモーダル文書解析

PaddleOCR-VLは、ドキュメント解析タスク向けに特別に設計された、最先端(SOTA)かつリソース効率の高いモデルです。そのコアコンポーネントは、NaViTスタイルの動的解像度ビジュアルエンコーダーとERNIE-4.5-0.3B言語モデルを統合したコンパクトで強力なビジュアル言語モデル(VLM)であるPaddleOCR-VL-0.9Bです。これにより、正確な要素認識が可能になります。この革新的なモデルは109言語を効率的にサポートし、テキスト、表、数式、グラフなどの複雑な要素の認識に優れており、リソース消費を極めて低く抑えています。

オンラインで実行:https://go.hyper.ai/3OjbB

エフェクト例

2. LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

LongCat-Videoは、MeituanのLongCatチームによって開発された、136億のパラメータを持つオープンソースのAI動画生成モデルです。テキストから動画への変換、画像から動画への変換、動画の連続再生といったタスクに優れており、特に高品質の長編動画を効率的に生成します。マルチ報酬強化学習最適化(GRPO)により、このモデルは社内および公開ベンチマークテストにおいて、主要なオープンソース動画生成モデルや最先端の商用ソリューションに匹敵する性能を示しました。

オンラインで実行:https://go.hyper.ai/3DWbb

エフェクト例

3. vLLM + OpenWebUIを使用したVibeThinker-1.5Bのデプロイ

VibeThinker-1.5Bは、Weibo AIが初めてリリースしたオープンソースの大規模モデルです。その強力な機能は、単にパラメータを積み重ねるのではなく、Weiboの開発者が提唱するSSP学習コンセプトに基づいています。このコンセプトは、学習フェーズにおいて、モデルが精度のみに重点を置くのではなく、あらゆる可能な解のパスを探索することを促します。その後、強化学習を用いて戦略を効率的に最適化し、正しいパスを正確に特定することで、モデルのパフォーマンスを最大化します。

オンラインで実行:https://go.hyper.ai/PAcy1

エフェクト例

今週のおすすめ紙

1. Kandinsky 5.0: 画像とビデオ生成のための基礎モデル群

本レポートでは、高解像度画像と10秒動画合成のための基礎モデル群であるKandinsky 5.0を紹介します。このフレームワークは、3つのコアモデル群で構成されています。Kandinsky 5.0 Image Lite(60億個のパラメータを持つ画像生成モデル群)、Kandinsky 5.0 Video Lite(20億個のパラメータを持つ軽量かつ効率的なテキストから動画への変換および画像から動画への変換モデル)、そしてKandinsky 5.0 Video Pro(190億個のパラメータを持ち、卓越した動画生成品質を実現するモデル)です。

論文リンク:https://go.hyper.ai/cpPY4

2. P1: 強化学習で物理オリンピックを制覇する

本論文では、強化学習(RL)のみで学習されたオープンソース物理推論モデルP1シリーズを提案する。その中でも、P1-235B-A22Bは、2025年国際物理オリンピック(IPhO 2025)で金メダルレベルの性能を達成した最初のオープンソースモデルであり、2024年と2025年には13の国際および地域物理競技会で12個の金メダルを獲得した。

論文リンク:https://go.hyper.ai/434Df

3. VIDEOP2R: 知覚から推論までのビデオ理解

本論文では、知覚と推論を独立した2つのプロセスとしてモデル化することで、ビデオ推論能力を強化する、手続き型ビデオ強化学習のファインチューニングフレームワークであるVideoP2Rを提案します。広範な実験により、VideoP2Rは7つのビデオ推論・理解ベンチマークのうち6つで最先端のパフォーマンスを達成することが実証されました。

論文リンク:https://go.hyper.ai/0CChs

4. Uni-MoE-2.0-Omni: 高度なMoE、トレーニング、データを用いた言語中心のオムニモーダル大規模モデルのスケーリング

本稿では、完全にオープンソースの汎用オムニモーダル大規模モデル(OLM)であるUni-MoE 2.0を紹介します。このモデルは、言語中心のマルチモーダル理解、推論、および生成機能におけるUni-MoEの技術的進化を著しく促進します。85のベンチマークにわたる広範な評価により、このモデルは現在の主要なOLMモデルの最高水準(SOTA)の性能を達成、またはそれに迫っていることが実証されています。76のベンチマークのうち50以上のベンチマークにおいて、1.2兆トークンの学習データセットを持つQwen2.5-Omniを上回っています。

論文リンク:https://go.hyper.ai/wETcQ

5. 真剣に考える:推論言語モデルを改善するための選択的潜在反復

本論文では、予測困難なトークンに対してのみ深い反復処理を行う動的な暗黙的思考メカニズムであるThink-at-Hard(TaH)を提案する。この手法では、標準的な順方向伝播が誤りである可能性があるトークンに対してのみ暗黙的反復処理を実行する軽量なニューラル意思決定器を導入する。暗黙的反復処理プロセスにおいて、Low-Rank Adaptation(LoRA)モジュールは、LLMの目標を、一般的な次トークン予測から、予測困難なトークンの微調整に重点を置くものへと移行させる。

論文リンク:https://go.hyper.ai/jp3xw

AIフロンティアに関するその他の論文:https://go.hyper.ai/iSYSZ

コミュニティ記事の解釈

1. 学際的なイノベーションは人間の能力をはるかに超えるのか?AI科学者は仮説を提唱し、実験を行い、トップレベルの会議で発表することで、科学研究の新たなパラダイムを切り開きます。

2024年8月、Transformer論文の著者の一人であるリオン・ジョーンズ氏が設立したサカナAIは、自律的に研究課題の提案、実験の設計、論文執筆を行う世界初の「AIサイエンティスト」を誕生させ、世界の科学界に大きな衝撃を与えました。実験の自動化から自律的な発見まで、AIは研究助手から「共同研究者」へと飛躍を遂げつつあります。AIが研究室に進出することで、科学の未来はどのように変わるのでしょうか?

レポート全体を表示します。https://go.hyper.ai/ICpf1

2. オンラインチュートリアル | 物体検出は「グローバルアウェアネス」の時代へ:清華大学などがYOLOv13をリリース、速度と精度の両面で飛躍的な進歩を達成

清華大学、太原理工大学、西安交通大学の専門家からなる共同研究チームは、「関連性モデリング」をバイナリから真の高次構造へと拡張した、新たな物体検出モデルYOLOv13を提案しました。その結果、YOLOv13は小規模モデル(Nシリーズ)から大規模モデルまで、MS COCOを大幅に改善し、より少ないパラメータとFLOPで最先端の検出性能を達成しました。具体的には、YOLOv13-Nは、YOLOv11-Nと比較してmAPを3.01 TP3T、YOLOv12-Nと比較して1.51 TP3T向上しました。

レポート全体を表示します。https://go.hyper.ai/W4vib

3. 画像による地理位置情報の飛躍的進歩!メイン大学、Google、OpenAIなどがLocDiffフレームワークを提案し、グリッドや参照ライブラリを必要とせずに正確なグローバル測位を実現しました。

メイン大学、Google、ハーバード大学からなる共同チームは、「球面調和ディラック関数(SHDD)」とその統合フレームワークLocDiffを提案しました。球面形状に適応した符号化方式と拡散アーキテクチャを構築することで、プリセットグリッドや外部画像ライブラリに依存せずに正確な位置推定を実現し、この分野に画期的な技術的道筋を提供します。

レポート全体を表示します。https://go.hyper.ai/Ucsq8

4. 9,874 件の論文から 15,000 の結晶構造に至るまで、MOF-ChemUnity は MOF の包括的な知識を再構築し、材料の発見を「解釈可能な AI」の時代へと推進します。

トロント大学とカナダ国立研究評議会クリーンエネルギーイノベーション研究センターの研究チームは、構造化され、スケーラブルで拡張可能な知識グラフであるMOF-ChemUnityを提案しました。この手法は、LLM(Language Management Log:分子レベル分子モデル)を用いて、文献中のMOF名とその同義語とCSDに登録されている結晶構造との間の信頼性の高い1対1のマッピングを確立し、MOF名とその同義語、そして結晶構造間の曖昧性解消を実現します。

レポート全体を表示します。https://go.hyper.ai/cRR1o

5. ドライクリーニング店からエリザベス女王工学賞まで、フェイフェイ・リーはシリコンバレーの技術神話に反論し、AI の非人間化リスクに焦点を当てています。

2025年春、フェイフェイ・リーはコンピュータービジョンとディープラーニングへの基礎的貢献が認められ、エリザベス女王工学賞を受賞しました。ImageNetプロジェクトの主要人物として、彼女はデータ駆動型画像認識手法の先駆者となり、「人間中心」のAI哲学を提唱し、AI倫理、社会的価値、そしてシリコンバレーの商業化の波の中で人間性を失わせるリスクについて常に懸念を示しました。しかし、彼女は少数派であるため、科学的成果と産業実践の間の微妙な領域に身を置いており、継続的な議論を巻き起こしています。

レポート全体を表示します。https://go.hyper.ai/bRu25

人気のある百科事典の項目を厳選

1. DALL-E

2. ハイパーネットワーク

3. パレートフロント

4. 双方向長短期記憶(Bi-LSTM)

5. 相互ランク融合

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://go.hyper.ai/wiki

12月締め切りのトップカンファレンス

主要な人工知能学会をワンストップで追跡:https://go.hyper.ai/event

上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。

また来週お会いしましょう!

HyperAIについて Hyper.ai

HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1800以上の公開データセットの国内高速ダウンロードノードを提供

* 600以上の古典的で人気のあるオンラインチュートリアルが含まれています

* 200 以上の AI4Science 論文ケースを解釈

* 600 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai