HyperAI超神経
Back to Headlines

手書き文字抽出のためのvLLM微調整:Qwen 2.5 VL 7Bを用いて 本記事では、手書き文字の抽出に適応させるために視覚言語大規模モデル(vLLM)であるQwen 2.5 VL 7Bを微調整する方法を解説します。具体的には、ノルウェーの植生データセットを用いて、模型の性能を最適化するための手順を詳しく紹介します。このデータセットは気候研究に大きな影響を与える可能性があり、vLLMの優れたOCR能力を活用することで、従来のOCRエンジンでは困難だった手書き文字の正確な抽出が可能となります。 手書き文字の挑戦 vLLMの優位性 データセットの検証とアノテーション 微調整のステップバイステップガイド 結果と可視化 細かい手順やコードはGitHubリポジトリで確認できます。また、抽出された植生データはHuggingFaceで公開されており、特に地理座標も含んだノルウェーのデータはExcelシートでも利用可能です。

18日前

vLLMを用いた文書理解の微調整 現在、言語モデルはデータ科学者や機械学習エンジニアたちの働き方を一変させようとしています。その中でも、視覚言語モデル(VLM)や大規模な視覚言語モデル(vLLM)の微調整は、特に重要な技術の一つです。この記事では、Qwen 2.5 VL 7BというvLLMの微調整方法について解説します。主なタスクは、ノルウェーのフェノロジーデータセットから手書き文字を正確に抽出することです。 モチベーションと目標 このプロジェクトでは、ノルウェーのフェノロジーデータセットから手書き文字を抽出することで、気候研究への貴重な貢献を目指しています。フェノロジーとは、生物の季節的な行動や反応の研究であり、特に植物の花期の長期的な変化分析などに活用されています。Qwen 2.5 VL 7Bは、このような文字認識に優れたモデルですが、特定の画像から文字を抽出する際に若干の問題を抱えています。具体的には、数値の違いを正しく認識できなかったり、細かな背景のドットやセルボーダーを文字と誤認したりすることがあります。 VLMを使う理由 従来のOCRエンジン(例如、Tesseract、DocTR、EasyOCR)は、このような手書き文字の認識においてしばしば性能が低下します。VLM(特にQwen 2.5 VL)は、これらの問題に対処するために優れており、以下のような利点があります: OCR性能の高さ: 特に手書き文字の認識において、VLMは従来のOCRエンジンを上回ります。Qwen 2.5 VLは、その訓練プロセスの一環としてOCRデータを使用しており、手書き文字の認識能力が高いです。 指示の提供: VLMには、どの文字や形式を探すかといった具体的な指示を提供できます。これは、従来のOCRエンジンでは不可能なことです。 手書き文字の特徴 手書き文字は非標準化されているため、その認識は困難です。具体的には、同じ文字であっても人によって大きく異なります。例えば、1と7は見た目が似ており、特に細かい線や背景が存在すると識別が難しくなることがあります。VLMの利点の一例としては、文字の横線の位置など、具体的な形状基準を設定できる点が挙げられます。 微調整プロセス 予測 初めにベースモデルを使って数百のサンプルを予測します。このステップで、モデルがどの部分でミスをしているかを把握することができます。 レビュー & 修正 予測結果を見直し、間違いを修正します。環境の設定により、画像とラベルを迅速に確認し、エラーを修正できるようにしています。 再学習 正確なラベルが付いた画像データを用いて、モデルの微調整を行います。Unslothパッケージを使用することで、効率的に微調整を行うことができます。微調整後、新たな数百のサンプルを予測し、再びレビューと訓練を行います。 綿密なデータ検証 データラベルの正確性は極めて重要です。わずかなミスでもモデルの性能に大きく影響を与える可能性があります。実際に、ラベルの0.5%程度の誤りが、モデルの性能を悪化させる理由を見つけました。ラベルの正確性を確保するために、データのバランスも調整します。特に、ブランク画像が70%を占めるため、それらを最大30%まで制限することで、計算資源の無駄を防ぎます。 ハイパーパラメータ探索 ハイパーパラメータの最適化も行いました。このタスクは画像が小さく、7Bモデルを使用していたため、A100 80 GB GPUでの訓練は10〜20分ほどしかかかりませんでした。これにより、夜間にハイパーパラメータ探索を行うことができました。 結果とプロット 最終的に、四つのテストセットに対してEasyOCR、ベースのQwen 2.5 VL、および微調整後のQwen 2.5 VLを実行し、結果を見てみましょう。EasyOCRの結果は非常に悪く、信頼できませんでした。一方、ベースのQwen 2.5 VLは93%〜99%の精度を持つものの、微調整後のモデルはさらに優れた結果を示しました。以下は、抽出したデータを用いたプロットの例です。 樹線データ: ノルウェーの地図上にプロットされた樹線データを見ると、海側や北に向かって冷たい色(低い樹線)が増えていき、内陸部に入ると暖かい色(高い樹線)になることが分かります。 まとめ この記事では、手書き文字を含む小規模画像の文書理解を目的としたVLMの微調整手法について解説しました。データセットの理解、ラベルの設定、モデルの訓練・評価などのプロセスを通過することで、高性能なモデルを生成できました。微調整は、特定のタスクにおけるモデルの性能向上に不可欠であり、本記事通过した手法は他の類似タスクにも応用可能です。 業界関係者のコメント Eivind KjosbakkenとLars Aurdalは、Findable ASでこのプロジェクトを共同で進めました。彼らは、モデルの微調整が気候研究に大きな影響を与える可能性があると述べています。また、Findable ASは、現代的なビジョン言語モデルの技術的な能力を強調し、公開された気候データのデジタル化と共有を目指しています。このプロジェクトは、技術的な挑戦と機械学習の重要な面であるデータ検証のプロセスを示す好例となっています。

Related Links