Claude（LLM）を用いたエンジニア工数削減プログラムを本番導入しました。人間の最終承認（Human-in-the-Loop）を前提に、要件→チケット分解／コードレビュー補助／検証用SQL・自動テスト生成／運用Runbookの起票・更新／ログ・障害の一次整理を標準化。Lead Time to Change（LTTC）・コードレビュー滞留時間・検証工数・MTTRなどの主要KPIで削減効果を確認（当社調べ）し、対象領域を拡大します。

実施の背景

当社のプロダクト運用は、「速さ」と「説明可能性」を同時に満たす場面が確実に増えています。カテゴリ拡大・日次自動更新・SLA（運用品質の下限基準）運用を回す開発／運用タスクは、

要件定義 → チケット分解 → 実装 → 検証 → リリース → 監視 → 変更履歴の記録

という一連の工程で構成されますが、各段に定型作業（要約・分解・整形・雛形化）が多く、さらにドキュメント整備（PRD／Runbook／チェンジログ）やログ・障害の一次整理に思った以上の時間が割かれていました。

結果として、１.手戻りが発生しやすい、２.ドキュメント負債が積み上がる、３.「なぜそう実装／是正したか」の説明が人依存になる――という課題が顕在化していました。

こうした“面倒だが欠かせない前処理”は、LLM（大規模言語モデル）の得意領域（要約／分解／整形／雛形生成）と相性が良いことが、社内のパイロットで明確になりました。たとえば次のような具体例です。

- 要件→チケット分解：PRDや課題メモから、ユーザーストーリー／受入れ基準／依存関係を抽出し、エピック→チケットへ分解する“たたき台”を出す。- レビュー補助：差分・テスト結果を読み込み、変更意図の要約／リスク箇所の抽出／レビュー観点を列挙し、レビューの抜け防止に寄与。- 検証スクリプトの雛形化：BigQueryのスキーマを参照した検証SQL・ダミーデータ・境界値テストの草案を自動生成。- Runbook／チェンジログ起票：障害チケットやPRから、暫定対応→恒久対策→確認手順のドラフトや、変更要点の要約を自動で起票。- ログ・障害の一次整理：例外ログや監視アラートを類型化／再現手順候補／関連チケット紐づけまでまとめ、SREの初動を短縮。

ただし、LLMの出力をそのまま反映することはしません。Human-in-the-Loop（人の最終承認）を前提に、Claudeを中心とした LLM-in-the-Loop を実装し、成果物は必ず担当者が確認・編集・承認してから適用します。これにより、スピード向上と説明可能性の両立（＝「どのプロンプト／どの出力を誰が採用し、どう編集して反映したか」）を実現します。

あわせて、LLM活用の適用領域／非適用領域も明確化しました。

- 適用：要約・分解・整形・雛形化・一次整理といった前処理工程、およびレビュー時の観点提示。- 非適用：仕様の最終決定・セキュリティ／プライバシー判断・本番データへの直接操作・顧客向け文言の最終文案（担当者が仕上げる）。

さらに、導入に先立ちセキュリティ／ガバナンスを設計段階から組み込みました。

- 最小権限・非機密前提：LLMへ渡す情報は要約用の非機密データに限定。個人情報・秘匿キー・本番データは送出しない。- 監査可能性：ジョブID／コミットIDとやり取りを紐づけて保存し、誰が・いつ・何を・どのプロンプトで生成／承認したかを追跡可能に。- ロールバック標準化：逸脱や誤反映が検知された場合、差し戻し→再生成→ロールバックを迅速に実施。- AI利用ポリシー：モデル選定基準、保存期間、二次利用の不可、プロンプト・出力の保護範囲を明文化。

チェンジマネジメントの面でも、いきなり全社展開せず、小さく始めてKPIで測る方針をとりました。

- パイロット→段階拡大：コアチームで運用→テスト密度・品質との相関を確認→対象領域を拡大。- 測定KPI：Lead Time to Change（LTTC）、コードレビュー滞留時間、検証SQL／テスト雛形の作成工数、MTTR（初動～暫定対処）、開発者満足度 などを四半期で集計し、期間・母数・算出法を併記して開示（当社調べ）。

この取り組みは、“人の判断を置き換える”ためではありません。目的は明確で、（1）面倒な前処理を機械化して時間を取り戻す、（2）出処と承認経路を記録し説明可能性を上げる、（3）手戻りを減らし、変更履歴とRunbookの鮮度を保つ――という、開発生産性と運用品質の両立です。



そのために、プロンプトライブラリ（用途別の定型プロンプト集）、ゴールデン・サンプル（良い出力例と採用基準）、レビュー観点のチェックリストを整備し、属人化を防ぎながら再現性のある運用へ移行しました。今後も、ABテストによるプロンプト／テンプレ改善や、KPIの公開を通じて、スピード × 説明可能性 × セキュリティの最適点を継続的に探っていきます。

実装範囲（今回の標準ワークフロー）

要件→チケット分解（PM/EM向け）

PRD／課題メモを入力→ユーザーストーリー・受入基準・依存関係の抽出、エピック→チケット分解案を生成。

生成結果は担当者が編集・承認し、追跡用ID（ジョブID）とともに登録。

コードレビュー補助（レビューア向け）

変更差分・テスト結果を入力→変更意図の要約、リスク部位の抽出、レビュー観点の列挙を出力。

最終判断は人が実施。LLM提案は補助に限定。

検証用SQL・テスト生成（QA/開発向け）

BigQuery等のスキーマを参照し、検証SQL・ダミーデータ生成・境界値テスト雛形を作成。

自動生成はステージング環境限定で実行し、実データ・本番権限へは非アクセス。

運用Runbook／変更履歴（SRE向け）

障害チケットや変更PRから、暫定対応→恒久対策→確認手順のRunbookドラフトを生成。

変更履歴（チェンジログ）は要点版を自動起票→SREが校正・承認。

ログ・障害の一次整理

例外ログ／監視アラートを要約し、類型・再現手順案・関連チケットを提示。

MTTR短縮のため、切り戻し要否や暫定対処の候補を出すが、自動実行は不可。

セキュリティ・ガバナンス

株式会社ストックラボ代表 尾太 駿 コメント

- 最小権限／非機密前提：LLMへ渡す情報は非機密・要約用に限定し、実データ・個人情報・秘匿キーは送出しません。- プロンプト・出力の監査：やり取りはジョブID／コミットIDと紐づけて保存。誰が・いつ・何を反映したかを追跡可能に。- リーガルレビュー：利用規約・秘密保持の見直し、AI利用ポリシー（二次利用不可・保存期間・モデル選定基準）を明文化。- ロールバック標準化：逸脱・誤反映時は差し戻し→再生成→ロールバックを迅速に実施。

「私たちはLLMを置き換えではなく前処理の自動化と意思決定の補助に使います。人が最後に決める前提で、要件分解・レビュー・検証・Runbookの“面倒な前処理”を機械に任せる。数字と安全の同時達成を、KPI公開と運用ルールで続けていきます。」

