手書きの筆記体も認識してテキストに変換可能なOCRモデル「Mistral OCR 3」が登場

AI開発企業のMistral AIが、スキャンしたドキュメントや手書き文字を認識してテキストデータに変換できるAIモデル「Mistral OCR 3」を発表しました。Mistral OCR 3の精度はエンタープライズ向けの文書処理ソリューションやAIを用いたOCRソリューションを上回り、読みにくい筆記体も認識できるとのことです。
Introducing Mistral OCR 3 | Mistral AI

Mistral OCR 3は、前モデルの「Mistral OCR 2」を大幅にアップグレードしたモデルで、筆記体や活字の上に注釈として書き込まれた手書きのコンテンツも正確に読み取ることが可能。また、密集したレイアウトや入力フォームなどの検出能力も改善され、さまざまな契約文書の読み取りにも適しているとのこと。さらに、低品質なスキャンによる文字の圧縮やゆがみ、低解像度、バックグラウンドのノイズに対しても堅固になっています。
HTMLベースの表構造を組み込んだマークダウン出力をサポートし、下流のシステムがドキュメントの内容だけでなく構造も理解できるようになっているとのこと。以下の動画を見ると、Mistral OCR 3がスキャンデータの表構造を維持したまま、文字や数字を正確に読み取っていることがわかります。
Mistral 3 OCR Demo in AI Studio - YouTube
以下のグラフは、各種ベンチマークで計測したMistral OCR 3(オレンジ色)のパフォーマンスを、MicrosotのAzureやGoogleのDocument AI、DeepSeek OCRといった競合製品と比較したもの。Mistral OCR 3は中国語・東アジア言語・東ヨーロッパ言語・英語・西ヨーロッパ言語のいずれでも、競合製品を上回るパフォーマンスを発揮しています。

Amazon Textractを加えて、入力用紙・手書き文字・請求書・複雑な表・歴史的文書のスキャンデータといった書式ごとの性能を比較したものが以下。やはりMistral OCR 3のパフォーマンスが、競合製品よりも優れていることがわかります。

各言語で、前モデルのMistral OCR 2と性能を比較したものが以下。いずれの言語でもMistral OCR 3の精度が上回っており、全体的にはMistral OCR 3が74%の勝率を達成しています。

Mistral OCR 3には、Mistral AI Studio内のAPIまたはDocument AI Playgroundインターフェースを通じてアクセスできます。多くの競合ソリューションよりも小型なモデルであるため、業界をリードする1000ページあたり2ドル(約312円)という価格で利用可能で、Batch-API割引を利用すると1000ページあたり1ドル(約156円)で利用できるとのことです。
