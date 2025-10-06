株式会社CyCraft Japan

台湾発のサイバーセキュリティ企業 CyCraft は、同社データサイエンスチームによる学術論文 「Beyond Oracle: Verifier-Supervision for Instruction Hierarchy in Reasoning and Instruction-Tuned LLMs」 が、機械学習および計算神経科学分野における世界最高峰の国際会議「NeurIPS 2025」に採択されたことを発表いたしました。本論文は、2025 年 12 月 2 日から 12 月 7 日に米国カリフォルニア州サンディエゴにて開催される同会議にて発表される予定です。

NeurIPS（Conference on Neural Information Processing Systems）は、ニューラルネットワーク、ディープラーニング、自然言語処理など多岐にわたるテーマを網羅する、世界で最も権威ある学術会議の一つです。ICML（International Conference on Machine Learning）、ICLR（International Conference on Learning Representations）と並び、機械学習分野における三大国際会議の一つに位置づけられています。2025 年は 21,575 件の投稿があり、採択率は 25％ 未満と、一つの難関であり、技術革新性を重視する会議として知られています。

本研究成果は、大規模言語モデル（LLM）が指示階層（Instruction Hierarchy）を正しく処理する能力を大幅に強化するものであり、CyCraft が新たに発表した生成 AI ガードレール製品「XecGuard」および生成 AI システムセキュリティ評価サービス「XecART」において技術基盤として活用されています。国際的に認められた本技術により、LLM 応用に対して強固かつ理論的に裏付けられたセキュリティ性能を提供します。

NeurIPS 2025 採択論文情報

○ 論文タイトル

Beyond Oracle: Verifier-Supervision for Instruction Hierarchy in Reasoning and Instruction-Tuned LLMs

○ 著者

Sian-Yao Huang、Li-Hsien Chang、Che-Yu Lin、Dr. Cheng-Lin Yang

○ 概要

大規模言語モデル（LLM）は、システムプロンプトやユーザープロンプトといった多層的な指令に直面した際、指示階層を安定的に遵守できない場合が多く、特に現行の主流であり、多段階推論を重視する推論モデル（Reasoning LLM）では、この状況により生じる判断のずれが推論過程に沿って累積・拡大する傾向があります。

本研究ではスケーラブルな訓練フレームワークを提案しました。データは「プログラムで検証可能な対立的インストラクションセット」として設計されており、標準的な正答や報酬モデル（Reward Model）を必要とせず、モデルが指示階層を遵守する能力を、効率的かつ安定的に訓練することが可能です。

実験結果は、本技術が推論モデルおよび指示モデル（Instruct LLM）の指示階層の遵守と安全性における性能を顕著に向上させることを示しました。また、ジェイルブレイク（Jailbreak）やプロンプトインジェクション（Prompt Injection）など、LLM に関連するリスクに対しても有効な改善が確認されました。全体として、本研究は LLM のロバストなアライメント（Robust Alignment）に対して、安定的、スケーラブルかつ訓練コストを抑制できる技術的基盤を提供します。

○ 掲載リンク

https://neurips.cc/virtual/2025/poster/118802

研究成果の製品応用

本論文が NeurIPS 2025 に採択されたことは、CyCraft の研究成果が AI/ML 分野において高い価値を持つことを証明するものです。同時に、サイバーセキュリティ企業である CyCraft が、世界クラスの AI 研究実力を兼ね備えるという独自の地位を改めて示すものとなりました。

また、本研究はコア技術基盤として、CyCraftが先日発表した生成 AI ガードレール製品 「XecGuard」、および近日中に正式発表を予定している生成 AI 向けシステムセキュリティ評価サービス「XecART」の二つのソリューションにも適用されています。

- XecGuard：LLM ガードレールモジュールXecGuard は、直接導入可能なガードレール型セキュリティモジュールです。既存の AI アプリケーションに対し、強力な防御力を即時に付与し、プロンプトを守る能力 を強化します。これにより、プロンプトインジェクション（Prompt Injection）、シス テムプロンプトの漏えい（Prompt Extraction）、ジェイルブレイク（Jailbreak）といった脅威を根本から遮断できます。◎製品紹介ページ：https://www.cycraft.com/ja/xecguard- XecART：生成 AI システムセキュリティ評価サービスXecART は、生成 AI アプリケーション向けのレッドチームアセスメントです。多岐にわたる攻撃シナリオに対して AI モデルの挙動を徹底的にテストし、特に Prompt Injection に対する防御能力を評価します。さらに、OWASP、ISO、NIST などの国際基準や各国規制に基づくコンプライアンス監査レポートを提供し、システム全体の安全性と信頼性の向上を支援します。◎製品紹介ページ：https://www.cycraft.com/ja/xecart

今後の展開

CyCraft は、本研究成果を生成 AI セキュリティ領域における実務応用へと継続的に推進し、XecGuard と XecART を通じて日本企業に対し、堅牢かつ検証可能な LLM モデル防御能力を提供してまいります。

さらに、CyCraft CEO 兼共同創業者の Benson Wu は、2025 年 10 月 10 日に、特定非営利活動法人日本ネットワークセキュリティ協会（JNSA、会長：江崎 浩）が ASEAN Japan Cybersecurity Community Alliance（AJCCA）の後援のもと開催する「第2回 AJCCA カンファレンス 2025 in 東京」に登壇し、本研究に基づく製品のコンセプトや今後の展望について講演を行う予定です。

- タイトル：AI vs. AI: インジェクション攻撃からガードレール防御、そしてエコシステムのレジリエンスへ- 登壇者：CyCraft CEO 兼共同創業者 Benson Wu- 日時：2025 年 10 月 10 日（金）14:55 - 15:20- 会場：東京大学 弥生講堂一条ホール- 参加登録：来場希望の方は、事前登録必要（無料）(https://e-ve.event-form.jp/event/109480/2ndAJCCAConference2025-j)です。詳しくは公式サイト(https://www.jnsa.org/ajcca/)をご確認ください。CyCraft Japan について(https://www.cycraft.com/ja)

株式会社 CyCraft Japan（サイクラフトジャパン）は、 AI による自動化技術を専門とするサイバーセキュリティ企業。

2017 年に設立され、台湾に本社、日本とシンガポールに海外拠点を持つ。アジア太平洋地域の政府機関、警察・防衛機関、銀行、ハイテク製造業にサービスを提供している。

CyCraft の AI 技術 と機械学習技術によるソリューションが評価され、CID グループ とテマセク・ホールディングス旗下のパビリオンキャピタルから強力なサポートを獲得し、また、国際的トップ研究機構である Gartner、 IDC、Frost & Sullivan などから複数の項目において評価を受けている他、国内外の著名な賞をいくつも受賞している。また、国内外を含む複数のセキュリティコミュニティ、カンファレンスに参画し、長年にわたりセキュリティ業界の発展に尽力している。