業界最高水準の文字認識AI「GLM-OCR」をZ.aiがオープンソースで公開、ローカル環境でも動作できるほど軽量

2026年2月4日 12時22分

ドキュメント理解に特化したマルチモーダルOCRモデル「GLM-OCR」を中国のAI企業であるZ.aiが公開しました。GLM-OCRは0.9B(9億)という極めて軽量なパラメータ数でありながら、複雑なドキュメントレイアウトを高精度に解析・抽出することを目指して開発されています。

zai-org/GLM-OCR · Hugging Face

https://huggingface.co/zai-org/GLM-OCR

GLM-OCRの技術的な基盤はGLM-Vエンコーダー・デコーダー・アーキテクチャにあり、大規模な画像とテキストのデータで事前学習されたCogViTビジュアルエンコーダーと、トークンのダウンサンプリングを効率的に行う軽量なクロスモーダルコネクター、そしてGLM-0.5B言語デコーダーが統合されています。

The model integrates the CogViT visual encoder pre-trained on large-scale image-text data, a lightweight cross-modal connector with efficient token downsampling, and a GLM-0.5B language decoder. Combined with a two-stage pipeline of layout analysis and parallel recognition based… pic.twitter.com/Y2wtTsjdKQ— Z.ai (@Zai_org) February 3, 2026

さらに、学習効率と認識精度を向上させるためにマルチトークン予測(MTP)損失や安定した全タスク強化学習が導入されており、PP-DocLayout-V3に基づくレイアウト解析と並列認識の二段階パイプラインによって、高難度なドキュメントでも高いパフォーマンスを発揮します。従来のOCRでは挿入されている表や注釈などで構造が崩れてしまうことがありますが、GLM-OCRは高度なレイアウト解析も行うことで文書全体の構造を踏まえた上で文章や画像を認識できるというわけです。

Optimized for real-world scenarios: It handles complex tables, code-heavy docs, official seals, and other challenging elements where traditional OCR fails. pic.twitter.com/n1y62bohjD— Z.ai (@Zai_org) February 3, 2026

GLM-OCRはベンチマークのOmniDocBench V1.5において94.62というスコアを記録し、競合OCRモデルよりも高い性能を示したとのこと。また、数式やテーブルの認識、情報の構造化抽出といった多岐にわたるタスクでも最先端の性能であるSOTA(State-of-the-Art)を達成しており、GLM-OCRは小規模ながら強力な処理能力を持つ実用的なモデルとなっています。

Introducing GLM-OCR: SOTA performance, optimized for complex document understanding.

With only 0.9B parameters, GLM-OCR delivers state-of-the-art results across major document understanding benchmarks, including formula recognition, table recognition, and information extraction.… pic.twitter.com/2c6iSsaXYs— Z.ai (@Zai_org) February 3, 2026

Z.aiはGLM-OCRの導入と運用における最大の利点として、約9億という極めて軽量なパラメータ数により、ローカル環境でもvLLMやSGLang、Ollamaといった主要なフレームワークを用いた低コストかつ高速な推論が可能な点を挙げています。GLM-OCRをオンプレミスで運用できるようになれば、機密性の高い社外秘の文書もデジタル化しやすくなります。

実際の運用パフォーマンスにおいても、GLM-OCRは優れた効率性を証明しています。同一ハードウェア、単一レプリカかつ単一同時実行で画像とPDF入力からMarkdownを書き出す処理速度テストの結果によれば、PDFドキュメントの処理において1秒あたり1.86ページ、画像入力では1秒あたり0.67枚という高いスループットを達成しており、これは同等クラスの既存モデルを大幅に上回る数値です。

GLM-OCR achieves a throughput of 1.86 pages/second for PDF documents and 0.67 images/second for images, significantly outperforming comparable models. pic.twitter.com/luNKI59hig— Z.ai (@Zai_org) February 3, 2026

また、GLM-OCRは実世界のビジネスシーンを想定した最適化が行われており、結合されたセルを持つ複雑な表や、コードが多用された技術文書、印鑑や多言語が混在する領収書など、従来のOCRでは困難だったケースにも柔軟に対応し、正確なHTMLやJSON形式での出力が可能です。

GLM-OCRは開発コミュニティへの貢献を重視し、完全にオープンソース化されており、ソースコードはHugging Faceのzai-orgリポジトリを通じて公開されています。モデル本体はMITライセンスが適用されていますが、パイプラインの一部であるPP-DocLayoutV3にはApache License 2.0が適用されているため、利用時には双方の順守が求められます。

みんなの感想は？

業界最高水準の文字認識AI「GLM-OCR」をZ.aiがオープンソースで公開、ローカル環境でも動作できるほど軽量

外部サイト

関連情報（BiZ PAGE＋）

ランキング