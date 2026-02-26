AI法務OS「AILEX」、OCRエンジンをGPT5・GPT-4.1に刷新 --裁判所書類・スキャンPDFのテキスト抽出精度が95%から99%へ飛躍的向上
AILEX合同会社（本社：東京都渋谷区、顧問弁護士事務所：弁護士法人えそら）は、AI法務支援SaaS「AILEX」に搭載するOCRエンジンのAIモデルを、従来のGPT-4からOpenAI社の最新モデルGPT-4.1/GPT5へ全面刷新したことをお知らせいたします。
これにより、裁判所書類やスキャナから取り込んだPDF文書のテキスト抽出精度が従来の95%から99%へ飛躍的に向上しました。
■ OCR（光学文字認識）とは
OCRとは「Optical Character Recognition（光学文字認識）」の略称で、紙の書類をスキャナやカメラで読み取った画像データから、文字情報をデジタルテキストとして自動認識・抽出する技術です。
法律事務所では、裁判所から届く決定書・判決文、相手方から届く書面、依頼者から預かる契約書や領収書など、日常的に大量の紙書類を扱います。これらを電子データとして活用するにはOCR処理が不可欠ですが、法律文書には縦書き・段組み・和暦表記・証拠番号といった独特の書式が多く、従来のOCR技術では正確な読み取りが困難でした。
AILEXでは、最新のAI技術をOCRに活用することで、こうした法律文書特有の書式にも高精度で対応しています。
■ GPT-4.1/GPT5への刷新で何が変わるのか
今回のアップデートでは、OCR処理に使用するAIモデルをGPT-4からGPT-4.1へ全面的に移行しました。GPT-4.1はOpenAI社が2025年に公開した最新世代のAIモデルであり、画像・PDF文書の認識能力が大幅に強化されています。
主な改善点は以下のとおりです。
（1）テキスト抽出精度の向上
裁判所書類やスキャンPDFからのテキスト抽出精度が、95%から99%へ向上しました。これまで読み取りが困難だった、かすれた印字やFAX受信文書、古い裁判所書式なども高い精度で認識できるようになりました。
（2）法律文書特有の書式への対応力強化
縦書き文書、2段組み・3段組みのレイアウト、和暦（令和・平成・昭和）の日付表記、「甲第○号証」「乙第○号証」といった証拠番号の正確な認識精度が向上しました。
（3）処理コストの大幅削減
GPT-4.1はGPT-4と比較してAPI利用コストが約84%削減されています。これにより、大量の書類を処理する際のコスト負担が大幅に軽減されました。コスト削減分は今後のサービス品質向上に充当してまいります。
（4）処理速度の維持
モデル刷新後も、従来と同等の処理速度を維持しています。1件のPDFあたり数秒から十数秒でテキスト抽出が完了します。
■ 3段階テキスト抽出で最大限の精度を実現
AILEXのOCR処理は、3段階の抽出方式を採用しています。
まず、PDF文書に埋め込まれたテキスト情報を直接読み取ります。テキスト選択が可能な通常のPDFであれば、この段階でAIを使わずに高速かつ無料で抽出が完了します。
テキスト情報が埋め込まれていないPDF（スキャンPDF・画像PDF）の場合は、次の段階としてAIによるOCR処理を実行します。ここで今回刷新したGPT-4.1が活躍します。画像として保存されたページの文字を、AIが1文字ずつ正確に認識してテキスト化します。
この3段階方式により、あらゆる種類のPDF文書から最大限の精度でテキストを抽出することが可能です。
■ mints（裁判所電子提出システム）への対応を強化
2026年5月に民事裁判手続きのIT化が施行され、裁判所への書類提出が電子化されます。その際に使用される「mints」（民事裁判書類電子提出システム）では、提出するPDFにテキストレイヤーが含まれていることが求められます。
