5ヶ月前

ドキュメント理解

マルチモーダル

自然言語処理

マルチモーダル

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

概要

SmolDoclingを紹介する。これは、エンドツーエンドのドキュメント変換を目的とした超小型の視覚言語モデルである。本モデルは、ページ全体を包括的に処理するため、位置情報を含む完全な文脈でページ内のすべての要素を記述する新しい汎用マークアップ形式「DocTags」を生成する。従来のアプローチが大規模な基礎モデルに依存するか、複数の専門モデルを組み合わせた手作業によるパイプラインに依存するのに対し、SmolDoclingは256Mパラメータの視覚言語モデル内で、ドキュメント要素の内容、構造、空間的位置を正確に捉えるエンドツーエンド変換を実現している。SmolDoclingは、ビジネス文書、学術論文、技術報告書、特許文書、フォームなど多様なドキュメントタイプにおいて、コードリスト、表、数式、チャート、リストなど、ドキュメントの特徴を正確に再現する堅牢な性能を示している。これは、従来の研究が主に科学論文に焦点を当てているのに対し、はるかに広範なドキュメントタイプをカバーするものである。さらに、チャート、表、数式、コード認識のための新しい公開データセットを提供する。実験結果から、SmolDoclingはサイズが最大27倍も大きな他の視覚言語モデルと競合しつつ、計算リソースの要求を著しく削減していることが明らかになった。本モデルは現在利用可能であり、データセットは間もなく公開される予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

ドキュメント理解

マルチモーダル

自然言語処理

マルチモーダル

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

概要

SmolDoclingを紹介する。これは、エンドツーエンドのドキュメント変換を目的とした超小型の視覚言語モデルである。本モデルは、ページ全体を包括的に処理するため、位置情報を含む完全な文脈でページ内のすべての要素を記述する新しい汎用マークアップ形式「DocTags」を生成する。従来のアプローチが大規模な基礎モデルに依存するか、複数の専門モデルを組み合わせた手作業によるパイプラインに依存するのに対し、SmolDoclingは256Mパラメータの視覚言語モデル内で、ドキュメント要素の内容、構造、空間的位置を正確に捉えるエンドツーエンド変換を実現している。SmolDoclingは、ビジネス文書、学術論文、技術報告書、特許文書、フォームなど多様なドキュメントタイプにおいて、コードリスト、表、数式、チャート、リストなど、ドキュメントの特徴を正確に再現する堅牢な性能を示している。これは、従来の研究が主に科学論文に焦点を当てているのに対し、はるかに広範なドキュメントタイプをカバーするものである。さらに、チャート、表、数式、コード認識のための新しい公開データセットを提供する。実験結果から、SmolDoclingはサイズが最大27倍も大きな他の視覚言語モデルと競合しつつ、計算リソースの要求を著しく削減していることが明らかになった。本モデルは現在利用可能であり、データセットは間もなく公開される予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

SmolDocling：エンドツーエンドマルチモーダル文書変換向けの超コンパクトな視覚言語モデル | 記事 | HyperAI超神経