一般的にAIモデルは常に100%の正解を出力するわけではありません。それっぽい嘘をつくハルシネーションは有名ですが、それ以外にも複数ステップの処理途中でタイムアウトやループを引き起こすリスクが知られています。「forge」はセルフホスト型LLMに対して再試行を促すといった「ガードレール」を適用することによりモデルの精度を向上させることのできる信頼性レイヤーです。

antoinezambelli/forge: A Python framework for self-hosted LLM tool-calling and multi-step agentic workflows

https://github.com/antoinezambelli/forge/tree/main

forgeはPython製のフレームワークであり、forgeにツールセットを指定することによりセルフホスト型LLMは必要なツールを任意の順序で呼び出すことができます。ワークフローの構造はオプトイン方式であり、「必須ステップ」「前提条件」「ターミナルツール」を指定することにより必要に応じてループを制限できます。さらにforgeの「ガードレール」(レスキュー解析・リトライ促進・レスポンス検証)は必須ステップが0である場合にも適用されます。

「26のシナリオで構成されるforge v0.7.0評価スイート」によるスコア計測によると、8B規模のローカルLLMでは本来のスコアが10%未満だったところforgeを使用することにより84%にまで向上し、Claude Sonnet 4.6でも85%から98%にまで向上したとのこと。



forgeはバックエンドとして以下のローカルLLMをサポートします。

バックエンドおすすめネイティブ関数呼び出しかOllamaセットアップが最も簡単、モデル管理機能を標準搭載はいllama-server最高のパフォーマンス、完全に制御可能はいLlamafile単一バイナリ、依存関係なしいいえvLLM高スループット、AWQ/GPTQの重み付けはいAnthropicフロンティアベースライン、ハイブリッドワークフローはい

また、forgeは目的や用途に応じて3タイプの使用法があります。

・プロキシサーバー:クライアントとローカルモデルサーバーの間に配置することで、クライアントはよりスマートなモデルと通信しているように認識する

・ワークフローランナー:ツール定義・バックエンド選択・構造化エージェントループの実行を通じ、forgeがライフサイクルを全体的に管理する

・ガードレールミドルウェア:ループの制御はユーザーが行い、forgeは信頼性スタックとして応答の検証・不正なツール呼び出しの救出・必須ステップの強制を行う

forgeは導入の敷居が高いものの、適切に使用することでローカルLLMの信頼性を大幅に向上させることができるので、日常的にローカルLLMを使用している人は是非チェックしてみてください。