Photo: かみやまたくみ

2025年8月にOpenAIが公開したオープンウェイト言語モデル(≒ローカルLLM)「gpt-oss-20b」。優秀で利用価値が高いAIモデルのひとつなのですが、動かすまでがけっこう難しい。

本稿では、どうやれば同モデルを自分のパソコンで動かせるかを紹介します。

<目次>

gpt-oss-20bって?

gpt-oss-20bの動かし方

- 1. 「自分のパソコンで動きそうか?」を確認する

- 2. LM Studioをインストール・基本設定を行う

- 3. gpt-oss-20bをダウンロードする

- 4. gpt-oss-20bを最小設定でロードしてみる

- 5. 本格的に利用するための設定の仕方

gpt-oss-20bって?

わりと真面目に「無料版ChatGPT」です。ChatGPTの開発元であるOpenAIが開発・無料で公開している大規模言語モデル(LLM)で、「o3-mini」(かつてChatGPTに使われていたモデル)と同等のベンチマーク結果を出しています。

表を積極的に用いる癖があり、回答はとても見やすい。
Photo: かみやまたくみ

完全なChatGPTのクローンではなく、Deep Researchなど使えない機能は多数あります。しかし、回答の傾向は近く、推論能力も高水準なため、ローカルLLMデビューしたいChatGPT派との相性はいいと思います。海外での評価はそこまで高くないのですが、ChatGPT同様に日本語が堪能なのがポイント。日本人が利用するローカルLLMとしては最高鋒だと思います。

本稿では利用感の紹介や細かな性能評価は行いませんが、長文分析&レポート作成・コーディングアシスタント翻訳など、さまざまな運用が可能です(一応、サンプルの回答をGoogleドライブにまとめておきます)。

gpt-oss-20bの動かし方

本稿で紹介するのは、LM Studioを用いてgpt-oss-20bを動かす方法です。Ollamaという選択肢もあるのですが、モデルの動作に関する設定ができない仕様の関係でgpt-oss-20bの性能をあまり引き出せないと感じたので、LM Studioを採用しています。

※「動くか」だけを確認できればいいのであれば、Ollamaはおすすめです。特別な設定なしに、M4 MacBook Pro(メモリ16GB)で動作することを確認しています。「動かす敷居」はめちゃくちゃ低いです。

1. 「自分のパソコンで動きそうか?」を確認する

gpt-oss-20bを動かすうえでいちばん難しいのが、実はこのステップです。

というのも、OpenAIは動作スペックを「16GBのメモリを搭載したエッジデバイス」などと曖昧に述べるだけで、厳密な動作スペックを示していません(無料公開ですから)。

もう少し具体的でないと自分のマシンで動くかの判断がしにくいと思うので「動かせそうなライン」を以下に示しておきます。

※以下、可能な限り確認をとっておりますが、絶対の動作を保証することはできません。また、破損などの損害が発生する可能性もありますが、補償などはいたしかねます。試される際は完全な自己責任でお願いいたします。

- Mシリーズチップ・メモリ16GB以上を搭載したMac。グレードやメモリにもよると思いますが、M2は苦しいかも

- Nvidia RTXシリーズ40系以上のGPU(VRAM8GB以上)・メモリ32GB以上を搭載したWindows PC(ゲーミングPC)

Macに関しては、M4 MacBook Pro(メモリ16GB)での動作を確認しています。ただ、ほかのアプリを起動できないほどギリギリで、実用ラインではありません。日常的に使うのであれば、メモリは32GBは要るでしょう。

Windows PCについては「VRAM 16GB」が分かれ道になる、という印象です。私自身はRTX 4060 Ti(VRAM 16GB)+メモリ64GBで動かしているのですが、型落ちGPUにも関わらず設定をかなり盛っても大丈夫です。調べるとVRAM 8GB+メモリ32GBでの動作例は出てくるので、16GBを割っていてもメモリが相応にあればいける…という感じに見えます。ただ、Macより格段に敷居が高いと思います。

Windows PCで試される場合は、「gpt-oss-20b」「(ご自身のCPU・GPU(VRAM)・メモリ)」などで検索し、動かせている例を探してみるといいでしょう。参考になる事例があるかもしれません。

2. LM Studioをインストール・基本設定を行う

LM StudioはローカルLLMを動作させるためのアプリケーションです。無料で利用可能です。こちらからダウンロードし、インストールしてください。ポイントは、設定からユーザーインターフェースを「パワーユーザー」以上にすることです。

基本的な設定の仕方などの詳細はこちらの記事にまとめてありますので、必要に応じてご参照ください。

3. gpt-oss-20bをダウンロードする

これを落としてください。ChatGPTアイコンが目印です
Image: かみやまたくみ

モデル検索画面で「gpt-oss-20b」で検索し、「openai/gpt-oss-20b」(OpenAI純正版)を選択してダウンロードしてください。12GBほどと巨大なことにご注意ください。

4. gpt-oss-20bを最小設定でロードしてみる

チャット画面に移動し、上部のモデルセレクターからgpt-oss-20bを選択します。この際、設定画面が表示されるのでそこでストップ。設定の変更を行います。

まずはMacでもWindowsでも以下のように設定してみてください。これ以外はデフォルトでOKです。

- コンテキスト長:3000

- GPUオフロード:18

- CPUスレッドプールサイズ:6

参考までに私がMacで動作させる際の設定をご紹介します。要求スペックをかなり下げていますが、ベースモデルだとこれでギリギリって感じです(CPUスレッドプールサイズは可能なら落としたほうがいいと思います)。

筆者のMacBook用のロード設定。メモリ16GBではこれくらい余裕のない設定になります
Photo: かみやまたくみ

その上で、画面上部にある「Estimated Memory Usage」を確認してください。「Total」がご自身のマシンに搭載されている「総メモリ量」(Windowsの場合はVRAM+メモリ)未満になっているかを見ます。いったん余裕はあればあるだけいいです。Windowsの場合は、GPUオフロードを上下させて、「ご自身のマシンのVRAM内」に収められるとベターです。

「このモデルは大きすぎます」と表示される場合はこちらの記事に対処法を記していますので、ご参照ください。

設定が完了したら、「モデルを読み込む」を押してください。読み込みが完了しないなどうまくいかない場合は「コンテクスト長」を下げてください。2048以下にしても動かないのであれば、スペック的に厳しいです(動いても実用性がほぼありません。最低でも4000程度は欲しいパラメータです)。

Reasoning Effortの設定場所
Image: かみやまたくみ

読み込みが完了したら、チャット画面に移動し、チャット欄にある「Reasoning Effort」がLowに設定されているかを確認してください。

そして、何か簡単なプロンプトを入れてみてください(文字数を少なめにしてください)。反応があれば動かせています。

ここで意味不明な文字列が表示される場合は、「コンテキスト長より回答の量が多くなっている」可能性が高いと思います(gpt-oss-20bはReasoningモデルなので、回答の見た目以上にコンテキスト長を消費します)。ここまでの設定でそうなる場合は、スペック的に意味ある回答を得るのが難しいということになるでしょう。

5. 本格的に利用するための設定の仕方

もしうまく動作して、もっと使ってみたいとなったら、モデルロード設定画面を開き、「Estimated Memory Usage」を確認しながらより実用しやすい設定を探しましょう。この項目はモデルロード時に専有するメモリ量(=今の設定に必要なメモリ)を示しています。もし搭載しているメモリ量に対して余裕があるのであれば、設定を上げられる──gpt-oss-20bの性能をさらに引き出す余地があります。

設定の仕方は以下の通りです。記事末に私のWindows PCでの設定を載せておきます。

- Total:モデルをロードした際に専有するメモリの総量です。「搭載メモリの総量」の7割程度がいいと思います。最大でも9割程度までにしましょう(私の環境では、これ以上は極端に重くなるなどして、まともに使える状態ではありませんでした)。

- GPUモデルロード時に専有するメモリのうち、VRAM(GPUメモリ)で読み込む量です。GPUオフロードと連動しています。

- GPUオフロード:モデルの何割をGPUで読み込むかを決める設定です(Max=すべてGPUで処理する)。入力欄の右側(モデルレイヤー数)の7-8割程度がWin/Mac双方で動作が良好でした。Windowsの場合、かつ「VRAMの総量」以内に収まる範囲で設定するのがよさそうでした(私の環境では2GB程度余裕をもたせたほうが快適に動作する傾向にあります)。

- コンテキスト長:長くするほど、より長い文章を入力でき、より長い回答・会話も可能です。「できること」に直結するため、不都合がない範囲で大きな値に設定したいパラメータです。変更するとEstimated Memory Usageも上下するので、許容範囲内かを都度確認してください。4096→8192→12288→16384…と動作感を見ながら少しずつ増やしていくのがいいです。

- Reasoning Effort:「思考の深さ」を決める、gpt-oss-20b特有の設定です。ほかの設定が問題ないことを確認してから設定します。Low・Medium・Highの3段階があり、設定を上げるほど「よく考えて」回答するようになりますが、負荷は高く、処理時間も伸びる傾向にあります。重くなる代わりに回答の品質を上げる設定と捉えて構いません。自分の場合だと、会話ならLow、コーディングアシスタントはMedium、翻訳や長文分析はHighって感じになっています。

最終的にはコンテキスト長とReasoning Effortが重要になります。どのReasoning Effortでも安定動作する範囲で最大のコンテクスト長を探すような感じです。

コンテキスト長数万+Reasoning Effort: Highのgpt-oss-20bは非常に強力で、長大な論文から詳細なレポート・全訳を生成できたりします。ChatGPTは回答の長さに制限があり、APIは長文を入れると料金が爆発します。でも、ローカルLLMであるgpt-oss-20bであれば? 設定を落として普段使いするのもいいでしょう。非常に高い汎用性にOpenAIらしさを感じるはずです。

動かす敷居は高いと言えますが、それだけの価値は十分にあるのです。

筆者のWindows PC用のロード設定。VRAM 16GB+メモリ64GBでまぁまぁ重い、くらいの感じです(VRAM 8GBの方はGPUオフロード・コンテキスト長をもっと落とすことになるはずです)
Image: かみやまたくみ

「LM Studio」ではじめるローカルLLM。“ガチ無料AI”を徹底解説

Source: OpenAI, LMArena, Artificial Analysis, LM Studio, Ollama