Command Palette

Search for a command to run...

2ヶ月前

SmolDocling:エンドツーエンドマルチモーダル文書変換向けの超コンパクトな視覚言語モデル

SmolDocling:エンドツーエンドマルチモーダル文書変換向けの超コンパクトな視覚言語モデル

要約

SmolDoclingを紹介する。これは、エンドツーエンドのドキュメント変換を目的とした超小型の視覚言語モデルである。本モデルは、ページ全体を包括的に処理するため、位置情報を含む完全な文脈でページ内のすべての要素を記述する新しい汎用マークアップ形式「DocTags」を生成する。従来のアプローチが大規模な基礎モデルに依存するか、複数の専門モデルを組み合わせた手作業によるパイプラインに依存するのに対し、SmolDoclingは256Mパラメータの視覚言語モデル内で、ドキュメント要素の内容、構造、空間的位置を正確に捉えるエンドツーエンド変換を実現している。SmolDoclingは、ビジネス文書、学術論文、技術報告書、特許文書、フォームなど多様なドキュメントタイプにおいて、コードリスト、表、数式、チャート、リストなど、ドキュメントの特徴を正確に再現する堅牢な性能を示している。これは、従来の研究が主に科学論文に焦点を当てているのに対し、はるかに広範なドキュメントタイプをカバーするものである。さらに、チャート、表、数式、コード認識のための新しい公開データセットを提供する。実験結果から、SmolDoclingはサイズが最大27倍も大きな他の視覚言語モデルと競合しつつ、計算リソースの要求を著しく削減していることが明らかになった。本モデルは現在利用可能であり、データセットは間もなく公開される予定である。

コードリポジトリ

DS4SD/docling
pytorch
GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SmolDocling:エンドツーエンドマルチモーダル文書変換向けの超コンパクトな視覚言語モデル | 論文 | HyperAI超神経