「LM Studio」ではじめるローカルLLM。“ガチ無料AI”を徹底解説
2025年9月7日の記事を編集して再掲載しています。
自分のパソコン上で無料で動かせるAI「ローカルLLM」が最近盛り上がりを見せています。
高性能化が進んでおり、日本語でも使いやすいモデルが登場しています。昨今話題の「gpt-oss」もそんなローカルLLMのひとつで、自分は「わりとこれでよくない?」と感じました。軽量なモデルを選べば、MacBook Airでも試せます。
この記事では、専用アプリ「LM Studio」を使ってローカルLLMを使う方法を紹介します。比較的高性能ながら多くのパソコンで動作する「Google Gemma 3n E4B」を例に、導入方法からチャットを始めるまで──「とにかく動かす手順」をまとめています。
<目次>
ローカルLLMとは
LM Studioとは
- LM Studioの推奨動作スペック
- LM Studioのインストール&セットアップ
- LM Studioのチャットで使える機能
- 「このモデルは大きすぎる」と出るときの対処法
ローカルLLMとは
ローカルLLMとは大規模言語モデルを自分のパソコン上で動かすこと、あるいはその際に利用されるAIモデルのことです。研究・開発目的で一般公開されているLLMが多数あり、それらをダウンロードして「マイAI」として利用できる感じです。
ざっくり「自分のパソコンで無料で使えるChatGPT的なやつ」というイメージで構いませんが、ChatGPTとはやや性質が異なるのがポイントとなっています。
- パソコンにLLMをダウンロードして専用ソフトで動かす。設定を変えない限り、外部とのデータ通信を行わない(ネットなしでも利用できる)ので、個人情報などを含む「人に見せられないデータ」も安心して処理できる
- 料金はかからない
- 推論性能や機能性はChatGPTやGeminiには及ばない
前2つはメリットで、最後がデメリットになります。しかし、前述のように「高性能化が進んでいる」のがポイントです。「いけるじゃん!」となる方もいらっしゃるのではと思います。ぜひ実際に動かして判断してみてください。
LM Studioとは
LM StudioはローカルLLMを動作させるためのアプリケーションです。ユーザーが入力したプロンプトをAIに伝え、AIが生成した回答を表示します。たくさんのローカルLLMを検索・ダウンロードでき、「ChatGPTみたいなAIチャットボット」をパソコン上で実現します。
MacでもWindowsでも動作し、商用目的もOK、かつ無料となっています。こちらからダウンロードできます。
LM Studioの推奨動作スペック
ローカルLLMを動作させるにはある程度のスペックが必要になります。高性能なAIほど要求スペックは上がります。推奨スペック付近で動作するのは、パラメータ数7B程度までです。
Macの推奨スペック- Appleシリコン(M1-M4)を搭載
- macOS 13.4以降を搭載
- メモリ16GB以上を推奨
※Macについては、M4 MacBook Pro(いちばん安いモデル。MacBook Airとスペックはほぼ同じ)とLM Studio バージョン0.3.25で動作検証を行っています。
Windowsの推奨スペック多様な製品があるのでMacほどシンプルにまとめられませんが、「Copilot+ PC(2024-2025年に発売されたAI対応ノートPC)やゲーミングPC」だと動かしやすいというイメージです。
- x64対応チップまたはSnapdragon X Eliteを搭載
- メモリ16GB以上を推奨
- 4GBのVRAMを搭載
※Windowsについては、Ryzen 7 7700 + メモリ64GB + GeForce RTX 4060 Ti 16GBを搭載したデスクトップPCとLM Studio バージョン0.3.25で動作検証を行っています。
LM Studioのインストール&セットアップ
こちらからLM Studio本体をダウンロードします。OSと搭載チップはご自身のパソコンに合ったものを選び、Versionはデフォルトのままとします。LM-Studio-...というファイルが落ちてくるので、実行・インストールしてください。
そして、LM Studio以外のアプリを終了してください。ローカルLLMは高負荷なので、最初は余計な負荷がかかっていない状態で試すのがおすすめです。
それからLM Studioを起動し、初期設定と利用するローカルLLMのダウンロードを行います。
1. 右下にある小さな歯車アイコンをクリック
- 言語→日本語
- ユーザーインターフェースの複雑さレベル→パワーユーザー
- 設定すると「Model Search」タブが出現するのでそちらに移動します
- 「Hugging Faceでモデルを検索…」と表示されている欄に「Gemma 3n E4B」と入力
- 多数の検索結果が出ますが、「Gemma 3n E4B」とだけ表記されているものを選択してください
- 説明欄を下にスクロールし「Download Options」に「GGUF Gemma 3n E4B Instruct Q4 K M」と表示されているかを確認します。そうでない場合は、すぐ右上にある「Show all options」を開き、探して該当するものを選んでください
「このマシンには大きすぎます」と表示される場合は、パソコンのスペックが不足しています。動かせる可能性はまだあるので、「それでも動かす方法」をご覧ください。
4. 読み込んだら使えます- ダウンロードが完了したら「Use in New Chat」をクリックしてください。ロードが始まります
- 完了するとチャット画面に遷移。あとはChatGPTと同じ感じで会話を始められます
前述のようにローカルLLMは高負荷です。パソコンが発熱したり、ファンが回ったりすることがありますが、基本的に問題ありません(安全対策が実装されていて、スペック的に厳しいモデルを読み込もうとするとLM Studioが「ムリだよ」と拒否するようになっています)。
LM Studioのチャットで使える機能
LM Studioのチャット機能をざっとご紹介します。基本的な使い方がわかったら、いろんなプロンプトを試したり、より高性能なモデルを探してみるなどしてみましょう。
1. プロンプトの入力2. PDFや画像をアップして質問できる- Enterで改行
- Shift + EnterでAIにプロンプトを送信
チャット欄左下のクリップアイコンから、ファイルをアップロードできます。対応しているのは、テキストファイル系(.txt, .md, .csv, .jsonなど)とPDF、画像(.jpg)です。上記形式のファイルについては内容について質問・要約してもらえます(画像は認識できるモデルであれば)。
オフィス系(ワードやエクセル)には残念ながら基本的に未対応です。
3. MCPも利用可電源アイコンをクリックすると、MCPを設定・利用できます。本稿では詳細は扱いません。公式の説明をご覧ください。
なお、本設定で「rag-v1」をオンにすると、ワード形式のファイルをアップできるようになります(挙動は標準で対応しているファイル形式とは少し異なります)。
4. システムプロンプトで口調なども設定可能右上にあるスパナボタンを押せば、モデルの挙動を調整できます。AIに好みにあった話し方をして欲しいのであれば、Contextタブからシステムプロンプトで設定してみましょう。Modelタブではtemperatureを調整、回答の創造性を上げ下げできます。小説を書いてもらうなら高めに、かっちりした翻訳をお願いするなら下げる…といった具合です。
「このモデルは大きすぎる」と出るときの対処法
「このモデルは大きすぎる」と表示されたら絶対に動かないのか?というとそうではありません。対策が3つあり、動かせる可能性があります。
※3つめは知識を要しリスクもある対応なので、まず1と2を試し、かつ説明をよく読んだうえで実行するかを決めてください。
1. 「軽いバージョン」を選ぶローカルLLMには複数のバージョンが公開されていることがほとんどで、重いバージョン・軽いバージョンがあります(量子化モデルなどと呼ばれます)。軽いほどパソコンへの負荷が減り、動作させやすくなります。
- モデルを検索したあと、モデル欄を下にスクロールし 「Download options」→「Show all options」 を開く
- 名前に 「Q4」「Q5」… のように “Q+数字” が入っている項目を探す。数字が小さいほど軽い(例:Q8 → Q5 → Q4 → Q3 の順に軽い)
- 末尾に _K_S や _K_M などが付くことがありますが、これは作りの細かな違いです。迷ったら _K_M を選ぶ
軽くなるほど賢さが落ちますが、致命的ではないことがほとんどです。
2. より軽量なローカルLLMを利用するまた、ダウンロードするローカルLLMを「Gemma 3n E2B」など、そもそもコンパクトなモデルに変更するのも有効です。Gemma 3n E4Bが動かない場合は、Model Searchでこちらを検索し、適宜ダウンロード・読み込めるか試してみてください。
モデル名には基本的に「〜B」という表記が含まれていますが、これはローカルLLMの大きさを表しています(性能は大きなモデルほど高くなります)。「1B」「2B」は非常にコンパクトなモデルで、要求スペックも低くなっています。
3. 安全対策を外す
LM Studioの過負荷対策をオフにすると、それまで動かなかったモデルも動かせるようになることがあります。ただし、説明をよく読んだうえで、実行は自己責任でお願いいたします。
「ガードレール」って何なの?1. 設定からHardwareタブを開く
2. スクロールして下の方にある「ガードレール」を下げます。下げる際は必ず1段階だけ下げ、都度動かしたいモデルが動くかを試してください
3. それでも動かなかったら、さらに下げるかを検討してください。ただし、「なし」にするのは非推奨です
パソコンのスペックを超えるサイズのLLMを読み込もうとした際に設定に応じて拒否する、LM Studioの安全対策です。
実態としては、安全マージンを減らす代わりに動作させられるLLMの幅を増やす設定なところがあります。下げるほどパソコンのスペックをよりギリギリまで利用できるようになり、動かせるLLMが増えます。代わりにパソコンの動作が停止するなど、不具合が生じる確率が上がります。
一応、検証のために設定を落としてみたりもしましたが、予防策が作動し続ける設定に関しては不具合は発生していません。
予防策がなくなる設定にすると、どのようなモデルでも「実行は」できるようになります。ただし、スペックに対して大きいモデルだと読み込めても動作がカクカクになったりします。極端に大きなモデルを読み込んだことはないのですが、動作が停止したり、最悪の場合は破損すると考えられます。
「使いたいLLMに対してパソコンのスペックが十分であるか」を見積もれる人が、リスクを理解した上で設定する項目だと言えます。
Source: LM Studio (1, 2, 3), Hugging Face, Google (1, 2)
