近年、生成AIや大規模言語モデル（LLM）は急速に進化し、文書生成や要約、翻訳などで高い性能を示していますが、「AIは本当に新規性調査やクレーム解釈などの知財実務の中核業務を担えるのか」という疑問は残ります。こうした課題に向き合い、AIの可能性と限界を客観的に示すため、Patsnapは知財実務に特化したベンチマーク「PatentBench」を構築しました。

汎用LLMは、知財実務の「真のボトルネック」を理解しているか？

革新的な開発の裏に潜む、知財調査の「壁」

例えば、あるメーカーが次世代の「人型ロボット」を開発するシーンを想像してください。「多自由度のスムーズな動作を実現しつつ、極限までコンパクトに設計し、量産コストと組立性を両立させた革新的な筐体構造」というの技術コンセプトの優位性を確かなものにするため、知財部門は先行技術調査を開始します。

しかし、知財の現場には常に「精度の壁」が立ちはだかります。 特許文献特有の抽象的な表現や、企業ごとに異なる専門語彙（表現ゆれ）により、致命的な重要文献の見落としというリスクが常に付きまといます。100～200件の公報を精査するだけでも、熟練の担当者が数日から数週間を費やすのが実情です。

「会話ができるAI」と「実務を遂行するAI」の決定的な差

この過酷な業務負荷を軽減するため、多くの企業が生成AIの導入を検討しています。確かに、近年の汎用LLMは、文章生成や要約において驚異的な能力を発揮します。

しかし、ウェブ上の汎用的なテキストを中心に学習したAIにとって、「特許という特殊な世界」は全く別のルールで動いています。知財実務を汎用LLMに委ねることには、特許特有のセマンティクスやクレーム解釈、知財固有のワークフローを十分に理解できず、実務判断を伴う業務には構造的な限界があります。

小さな誤りが、巨大なビジネスリスクへ

知財の世界は、技術・法務・ビジネスが複雑に交差する領域です。 汎用LLMが生成した「もっともらしい回答（ハルシネーション）」を鵜呑みにすることは、単なる作業ミスでは済みません。それは製品戦略の誤認、あるいは深刻な法的リスクへの直面を意味します。

PatentBenchによる検証

AIがどこまで特許実務を支援できるのかを定量的に評価するために、Patsnapは独自のベンチマーク「PatentBench」を構築しました。

このベンチマークでは、Patsnap Eureka新規性調査エージェント、ChatGPT-o3（ウェブ検索対応）、DeepSeek-R1（ウェブ検索対応）の3モデルを同一条件で比較しました。

その結果、Patsnap EurekaはTop100結果におけるX検出率・Xリコール率でそれぞれ81％・36％を記録しました。これは、汎用モデルに比べてより正確にX文献を特定し、より漏れなく拾い上げられるAIであることを示しています。

PatentBenchの詳細：https://www.patsnap.jp/benchmark/#why-patsnap

IP実務をこなすAIエージェント「Patsnap Eureka

汎用LLMが専門領域で幻覚や実行力の限界に直面する一方、いま注目されているのが「領域特化型AIエージェント」です。これは単なる対話モデルではなく、業務文脈を理解し、現場のワークフローに沿って実務を遂行する“実働型AI”です。

Patsnap Eurekaはこの分野の先駆けとして、特許実務で頻発する高負荷タスクに向け、新規性調査、FTO調査、明細書作成、特許翻訳など複数のエージェントを実装しています。

たとえば新規性調査エージェントは、先行技術抽出、要素分解、複合検索式生成、スクリーニング、クレーム対応付け、比較表・レポート作成までを自動化。結果は根拠付きで編集可能な形式で出力され、専門家がそのまま利用できます。これにより、従来1～2週間かかった調査業務が、数分～数時間へと大幅に短縮されます。

圧倒的な専門データ量＋実務理解

Patsnapは十年以上にわたり技術・特許領域に特化し、現在、174か国・2億件以上の特許データ、2億件以上の論文などを収録。データに対しては、重複排除、構造化、正規化、専門家監修によるラベリングなど多段階の加工を施してきました。

また、世界15,000社以上の顧客を支援する中で、特許エンジニア、代理人、企業IP部門の実際のワークフローや判断基準を体系的に抽出し、それらをエージェントの行動ロジックとして実装してきました。

