ドキュメント理解に特化したマルチモーダルOCRモデル「GLM-OCR」を中国のAI企業であるZ.aiが公開しました。GLM-OCRは0.9B(9億)という極めて軽量なパラメータ数でありながら、複雑なドキュメントレイアウトを高精度に解析・抽出することを目指して開発されています。

zai-org/GLM-OCR · Hugging Face

https://huggingface.co/zai-org/GLM-OCR

GLM-OCRの技術的な基盤はGLM-Vエンコーダー・デコーダー・アーキテクチャにあり、大規模な画像とテキストのデータで事前学習されたCogViTビジュアルエンコーダーと、トークンのダウンサンプリングを効率的に行う軽量なクロスモーダルコネクター、そしてGLM-0.5B言語デコーダーが統合されています。



さらに、学習効率と認識精度を向上させるためにマルチトークン予測(MTP)損失や安定した全タスク強化学習が導入されており、PP-DocLayout-V3に基づくレイアウト解析と並列認識の二段階パイプラインによって、高難度なドキュメントでも高いパフォーマンスを発揮します。従来のOCRでは挿入されている表や注釈などで構造が崩れてしまうことがありますが、GLM-OCRは高度なレイアウト解析も行うことで文書全体の構造を踏まえた上で文章や画像を認識できるというわけです。



GLM-OCRはベンチマークのOmniDocBench V1.5において94.62というスコアを記録し、競合OCRモデルよりも高い性能を示したとのこと。また、数式やテーブルの認識、情報の構造化抽出といった多岐にわたるタスクでも最先端の性能であるSOTA(State-of-the-Art)を達成しており、GLM-OCRは小規模ながら強力な処理能力を持つ実用的なモデルとなっています。



Z.aiはGLM-OCRの導入と運用における最大の利点として、約9億という極めて軽量なパラメータ数により、ローカル環境でもvLLMやSGLang、Ollamaといった主要なフレームワークを用いた低コストかつ高速な推論が可能な点を挙げています。GLM-OCRをオンプレミスで運用できるようになれば、機密性の高い社外秘の文書もデジタル化しやすくなります。

実際の運用パフォーマンスにおいても、GLM-OCRは優れた効率性を証明しています。同一ハードウェア、単一レプリカかつ単一同時実行で画像とPDF入力からMarkdownを書き出す処理速度テストの結果によれば、PDFドキュメントの処理において1秒あたり1.86ページ、画像入力では1秒あたり0.67枚という高いスループットを達成しており、これは同等クラスの既存モデルを大幅に上回る数値です。



また、GLM-OCRは実世界のビジネスシーンを想定した最適化が行われており、結合されたセルを持つ複雑な表や、コードが多用された技術文書、印鑑や多言語が混在する領収書など、従来のOCRでは困難だったケースにも柔軟に対応し、正確なHTMLやJSON形式での出力が可能です。

GLM-OCRは開発コミュニティへの貢献を重視し、完全にオープンソース化されており、ソースコードはHugging Faceのzai-orgリポジトリを通じて公開されています。モデル本体はMITライセンスが適用されていますが、パイプラインの一部であるPP-DocLayoutV3にはApache License 2.0が適用されているため、利用時には双方の順守が求められます。