Command Palette
Search for a command to run...

要約
SmolDoclingを紹介する。これは、エンドツーエンドのドキュメント変換を目的とした超小型の視覚言語モデルである。本モデルは、ページ全体を包括的に処理するため、位置情報を含む完全な文脈でページ内のすべての要素を記述する新しい汎用マークアップ形式「DocTags」を生成する。従来のアプローチが大規模な基礎モデルに依存するか、複数の専門モデルを組み合わせた手作業によるパイプラインに依存するのに対し、SmolDoclingは256Mパラメータの視覚言語モデル内で、ドキュメント要素の内容、構造、空間的位置を正確に捉えるエンドツーエンド変換を実現している。SmolDoclingは、ビジネス文書、学術論文、技術報告書、特許文書、フォームなど多様なドキュメントタイプにおいて、コードリスト、表、数式、チャート、リストなど、ドキュメントの特徴を正確に再現する堅牢な性能を示している。これは、従来の研究が主に科学論文に焦点を当てているのに対し、はるかに広範なドキュメントタイプをカバーするものである。さらに、チャート、表、数式、コード認識のための新しい公開データセットを提供する。実験結果から、SmolDoclingはサイズが最大27倍も大きな他の視覚言語モデルと競合しつつ、計算リソースの要求を著しく削減していることが明らかになった。本モデルは現在利用可能であり、データセットは間もなく公開される予定である。
コードリポジトリ
docling-project/docling
GitHubで言及
DS4SD/docling
pytorch
GitHubで言及