HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIAが新開発のVLMでドキュメントを構造化データに変換

NVIDIAは、複雑なドキュメントを正確に処理するための新しいAI技術「NeMo Retriever Parse」を発表した。この技術は、研究報告書や契約書、財務諸表、技術マニュアルなど、企業が保有する大量の非構造化データから意味のある情報を抽出するのを支援する。従来の光学文字認識(OCR)技術では、複雑なレイアウトや構造の変化、ページ間の連続性の保持といった課題に苦戦しているが、NeMo Retriever Parseはこれらの問題を克服する。 NeMo Retriever Parseは、視覚言語モデル(VLM)を基盤としたトランスフォーマー型モデルで、構造化および非構造化ドキュメントをアクション可能なデータに変換する。その特徴として、テキストと数式の正確な抽出、ドキュメント要素の空間的配置と分類、およびテキストやMarkdown形式での出力が挙げられる。また、企業向けの検索や整理のためのマルチモーダルなインジェスト・リカバリーパイプラインに統合可能。 このモデルは、ViT-H(視覚トランスフォーマー)を視覚エンコーダーとして使用し、mBARTをデコーダーとして用いている。これは、画像の理解を深め、構造を正確に保持するための設計で、従来の軽量エンコーダーに比べて高い精度を実現する。また、統一されたトークン化により、テキストだけでなく、座標や分類情報も同時に処理できる。 トレーニングでは、arXiv-5Mなどの高情報量データセットを用いて大規模な前処理を行い、その後、人間がラベル付けしたデータや公開データセットでファインチューニングを行っている。さらに、マルチトークントレーニング(MTT)により、モデルが構造的なシーケンス生成に適した内部表現を持つようにしている。 テキスト抽出では、GOT Dense OCR BenchmarkやNVIDIA内部のOCRベンチマークで高い精度を示し、数式やレイアウトの読み順も正確に再現できる。テーブル抽出では、PubTabNetやRD-TableBenchというベンチマークで優れた成績を収め、複雑なテーブルの構造を正確に再構成できる。 NeMo Retriever Parseは、今後のドキュメントAIの発展に寄与するとして注目されている。現在は英語に対応しているが、中国語や手書き文字への対応も計画されている。また、コンテキストの長さを拡張することで、より複雑なドキュメントの理解が可能になる見込みだ。

関連リンク

NVIDIAが新開発のVLMでドキュメントを構造化データに変換 | 人気の記事 | HyperAI超神経