ソーシャルニュースサイトのHacker Newsで、日常的なコーディング作業のメインツールとしてClaudeやGPTなどのクラウドAIからローカルAIモデルに置き換えた人がいるのかを尋ねるAsk HN投稿が注目を集めています。コメント欄を見ると完全な置き換えに成功した例はまだ限定的である一方、プライバシーやコスト、利用制限の回避を理由にローカルAIモデルを実用している事例が複数報告されています。

Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding? | Hacker News

https://news.ycombinator.com/item?id=48542100



Greenpants氏は、データのプライバシーと無料で使えることを重視し、Pi harnessをコンテナ化し、サンドボックス化して完全オフラインで運用していると述べています。Mac Studioの128GB RAM環境やMacBookの36GB RAM環境でアクティブパラメーター3BのQwen 3.6 35B-A3Bを使っており、実際にDjangoとWagtailを使ったウェブサイトのホームページとブログの全面的な再設計を行ったとのことです。

ただし、Greenpants氏は、Claudeのような大規模モデルと比べると、ローカルモデルには明確な指示が必要だと説明しています。曖昧な依頼をすると、HTML内にCSSを書くような手早いが設計としては望ましくない解決策を選びがちで、編集ツールの呼び出しに失敗したり、ループに入ったりすることもあるそうです。

Greenpants氏は、Claude Opusを「アーキテクチャについて一緒に考えてくれる上級者」に、エージェントとして動かしたQwen 3.6 35B-A3Bを「幅広い知識はあるが、かなり手取り足取り導く必要がある新人」に例えています。Claude Opusが15倍の高速化をもたらすとすれば、完全オフラインのQwenは5倍程度の高速化だとしつつ、無料でこれだけ使えることは驚異的だと評価しています。



lambda氏もPi agentをコンテナ内で動かし、別コンテナのllama.cppに接続する似た構成を使っているとのこと。128GBのユニファイドメモリを備えたAMD Strix Halo搭載ノートPCで運用しており、エージェント型コーディングに本気で使う場合はQwen 3.6 35B-A3Bを最もよく選ぶと述べています。

lambda氏は、プロプライエタリなツールをプログラミングに使うことに抵抗があるため、そもそもClaudeやGPTのようなフロンティアモデルを本格的には使っていないと説明しています。チャットや翻訳にはGemma 4 31B、音声関連にはGemma 4 12Bを使い分けており、Qwen 3.6 35B-A3Bがこの構成でのコーディング用途の「スイートスポット」だとしています。

horsawlarway氏は個人用途では月額100ドル(約1万6000円)のClaudeサブスクリプションをやめ、Pi harnessをUnsloth Studioに接続し、QwenとGemmaを使う構成に置き換えたと述べています。約5年前に組んだRTX 3090×2台搭載マシンを使い、Qwen3.6-35B-A3Bにマルチトークン予測(MTP)を適用したQwen3.6-35B-A3B-MTP-GGUFとgemma-4-26B-A4B-it-GGUFをUD-Q4_K_XL量子化で動かし、どちらも毎秒約150トークンで、300kのコンテキスト長をVRAM内に収められるとのこと。

horsawlarway氏は、ローカルモデルはClaudeほど優秀ではないものの、無料で使え、個人用途では差が大きな問題にならないと評価しています。実例として、子どもの利用監視機能付きAndroid TV用代替ランチャー、k8sクラスタ向け管理ポータル、Home Assistantの統合や自動化、OpenClawを使った買い物リスト管理や献立計画、ComfyUI向けの3Dアセット生成ワークフローを挙げています。



bluejay2387氏はコーディング作業の約90%をQwen 3.6 27B、Open Code、カスタムスキル、Sembleで行っていると報告しています。RTX Pro 6000を使っているため速度面では不満がなく、実験として始めたものの、十分に実用的だったためそのまま使い続けているとのこと。

ただし、bluejay2387氏は「Qwen 3.6 27BはClaude CodeやCodexほど賢くはなく、複雑な作業やUIの仕上げではCodexに劣る」と述べています。256kのコンテキストウィンドウでは、会話が100kを超えると品質と速度が落ち始め、150kを超えると問題が顕著になるため、compact targetを75%に設定しているそうです。

heipei氏はRTX 5090上でllama.cppとQwen 3.6 27BのQ6量子化版を使い、Pi agentをメインに使うようになったと述べています。ローカルで動くため、トークン価格、クォータ、時間帯、データの機密性を気にしなくてよい点を大きな利点に挙げています。

heipei氏は単なるコーディングだけでなく、日常的な開発作業にもローカルモデルを使っているとのこと。たとえばブランチを切ってコミットし、プッシュしてPRを作成してレビュー担当者を割り当てる作業、Stripe CLIで未処理の請求書を取得して銀行口座のCSVと突き合わせる作業、Elasticsearchの認証情報を使って負荷の原因になっている操作を要約する作業、コードベースが特定機能をすでにサポートしているか調べる作業などを任せているそうです。



jodoherty氏は、RTX Pro 6000でGemma 4 31Bを動かし、Pi agentを使ってエージェント型コーディングをすべて行っていると述べています。慎重なアーキテクチャ設計とTDDを前提にすると、手作業より2〜3倍速くプロジェクトを進められ、退屈な作業や範囲の広い作業では5〜10倍の時間短縮になる場合があるとのこと。

jodoherty氏の構成はvLLMでnvidia/Gemma-4-31B-IT-NVFP4を使う場合と、llama.cppでunsloth/gemma-4-31B-it-qat-GGUFをMTP付きで使う場合を切り替えるものです。GPUの消費電力は400Wに制限しており、現在のllama.cpp構成ではMTPの受理率によって毎秒60〜150トークン、プリフィルではコンテキスト長や深さに応じて毎秒1500〜4000トークンになるとしています。

jborak氏は、4枚のRTX 5070と第1世代AMD Threadripper 1950Xを使い、llama.cppでQwen3.6 27B(MTP)のQ6_Kを動かして、Pi agentのデイリードライバーとして利用していると述べています。速度は約毎秒50〜60トークンで、Qwen3.6 35B-A3Bなら非MTPでも毎秒130-140トークンとかなり高速になるものの、コーディング品質では27Bの方が自分には合っているとのことです。

いずれの例でも「ローカルAIモデルがClaudeやGPTを完全に置き換える万能の選択肢になった」というより「ローカルAIも用途を絞れば十分に日常作業を任せられる段階に近づいた」といったところ。特に具体的なファイルを指定する、小さなタスクに分解する、アーキテクチャやテスト方針を人間が明確にするといった使い方では、ローカルモデルでも実用的な速度と精度が得られていることがうかがえます。

一方で、Greenpants氏やwestoque氏は設計判断ではClaude Opusの方が優れていると見ています。また、bluejay2387氏は複雑な作業やUIの仕上げではCodexに戻ると述べ、user43928氏はQwen 3.6 27Bを仕事で使う立場から、Sonnet未満は検索用途を除いて時間の無駄だと批判しています。そのため、現実的な置き換え方は機密性の高いコードや個人プロジェクト、反復的な開発雑務をローカルモデルに任せ、難度の高い設計やレビューでは必要に応じてクラウドモデルを併用するというハイブリッドな運用だといえます。