画像生成AI「Stable Diffusion」でいろいろ特化した使えるモデルデータいろいろまとめ

2022年10月4日 21時0分

画像生成AIのStable Diffusionは、ノイズを除去することで画像を生成する「潜在拡散モデル」で、オープンソースで開発されて2022年8月に一般公開されたため、学習用のデータセットを変えることで特定の画像を生成するのに特化したフォークモデルが多数存在します。そんなStable Diffusionから派生して生まれた特化型モデルとその特徴や生成例をまとめてみました。

Stable Diffusion Models

https://rentry.org/sdmodels

実際に複数のモデルとシード値で、同一のプロンプト・ステップ数・CFGスケールで画像を生成した結果が以下の通り。モデルは左からStable Diffusion v1.4、Waifu-Diffusion v1.2、Trinart Stable Diffusion、Hentai Diffusion、Zack3D_Kinky v1です。シード値ごとにおおまかな構図や色合いは似ていますが、モデルによってかなり異なる絵柄となっていることが一目でわかります。

◆Waifu-Diffusion

「Waifu-Diffusion」はStable Diffusionのフォークモデルで、二次元画像サイト・Danbooruに投稿されたSFW(職場でも問題なく閲覧可能)画像490万枚以上で構成されたデータセット「Danbooru2021」によって訓練されています。実際にWaifu-Diffusionを使って画像を生成するとどんな感じなのかは以下の記事を読むとよくわかります。

画像生成AI「Stable Diffusion」でイラストを描くのに特化したモデルデータ「Waifu-Diffusion」使い方まとめ - GIGAZINE

Waifu-Diffusionは記事作成時点で以下のバージョンが存在します。記事作成時点ではv1.2が正式版で、v1.3はベータ版のみが公開されています。なお、「epoch」はデータセットによる学習を繰り返してパラメーターを調整した回数を示しており、epoch数が高いほど精度の向上が期待できます。

・Waifu-Diffusion v1.2

・Waifu-Diffusion v1.3 beta epoch03

・Waifu-Diffusion v1.3 beta epoch04

・Waifu-Diffusion v1.3 beta epoch05

・Waifu-Diffusion v1.3 beta epoch06

・Waifu-Diffusion v1.3 beta epoch07

・Waifu-Diffusion v1.3 beta epoch08

◆Trinart Stable Diffusion

Trinart Stable Diffusionは日本産のモデルです。小説生成AIのAIのべりすとのモデルである「とりんさまAI」を、Stable Diffusion v1.4のアートスタイルを可能な限り引き継ぐ形で、アニメやマンガなどの二次元イラストに特化させた改良版です。

naclbit/trinart_stable_diffusion_v2 · Hugging Face

https://huggingface.co/naclbit/trinart_stable_diffusion_v2

実際にTrinart Stable Diffusionで生成された画像の例

記事作成時点では学習のステップ数(繰り返し学習1回当たりのパラメータ更新数)に応じて3種類のモデルが公開されています。

・trinart2_step60000.ckpt

・trinart2_step95000.ckpt

・trinart2_step115000.ckpt

◆gg1342_testrun1_pruned.ckpt

280枚のNSFW(職場での閲覧を注意すべき過激コンテンツ)画像と、架空の人物による80枚のSFW画像で訓練されたモデルで、実写画像の生成に適しているとのこと。

モデルは以下からダウンロード可能。なお、gg1342_testrun1_pruned.ckptをはじめとしていくつかのモデルはTorrentで配布されており、ダウンロードするにはBitTorrentなどのクライアントが必要となります。

・(要BitTorrent)gg1342_testrun1_pruned.ckpt

◆Hentai Diffusion

Hentai DiffusionはWaifu-Diffusion v1.2のフォークモデルで、二次元画像サイトのRule34とGelbooruにアップされている15万枚の画像でトレーニングされています。Hentai DiffusionはHugging FaceとGitHubにリポジトリがホストされていますが、GitHubの方は記事作成時点で「利用規約に違反したため」という理由で無効化されています。

Deltaadams/Hentai-Diffusion at main

https://huggingface.co/Deltaadams/Hentai-Diffusion/tree/main

GitHub - Delcos/HentaiDiffusion

https://github.com/Delcos/HentaiDiffusion

以下がHentai Diffusionによって生成された画像。

モデルは記事作成時点で以下の2種類。

・RD1212.ckpt

・RD1412.ckpt

◆Bare Feet / Full Body b4_t16_noadd

Bare Feet / Full Body b4_t16_noaddは、裸足(はだし)と全裸を含んだ画像を厳選したデータセットで訓練されたモデルです。実際にBare Feet / Full Body b4_t16_noaddで生成された画像が、画像共有サイト・Imgurに投稿されています。

Imgur: The magic of the Internet

https://imgur.com/2sJGz3j

モデルはfp16版とfp32版がTorrentで配布されています。

・(要BitTorrent)bf_fb_v3_t4_b16_noadd-ema-pruned-fp16.ckpt

・(要BitTorrent)bf_fb_v3_t4_b16_noadd-ema-pruned-fp32.ckpt

開発者は「私は、通常のSDや他のモデルには『手足の描画』に多くの問題があることに気づきました。特に裸足は最大の弱点でしょう。そこで私は、裸足と全裸画像に焦点を当てたデータセットとチェックポイントを作成しました。そのおかげでBare Feet / Full Body b4_t16_noaddは、裸足に関しては他のモデルよりもうまく描画するようです。また、おまけとして性器についてもかなりうまく描画できるようで、独創性を重視する『スタイライズ』を低くする限り、一般的なNSFW画像生成モデルとして機能するようです。100％一貫しているわけではありませんが、まともに使える画像が100枚中0～1枚だったのが、5枚くらいにはなります。このモデルはまだまだ作りかけですが、完成させるつもりはあります。また、Bare Feet / Full Body b4_t16_noaddには膨大な破局的忘却がありました。また、専門化し過ぎたために、汎用(はんよう)性とスタイライズ性をかなり失っています」とコメントしています。

◆Lewd Diffusion

「Lewd」とは「わいせつな」という意味。Waifu-DiffusionをデータセットにWaifu-Diffusionと同じDanbooru21を使用していますが、Lewd Diffusionの使用したものはNSFW画像を含んでいます。つまり、二次元のNSFW画像を生成するのに特化したモデルとなっています。

モデルは3種類存在し、Lewd Diffusion v0はデータセットから選別された2万枚の画像で、Lewd Diffusion 70k 1e・Lewd Diffusion 70k 2eは7万枚の画像で学習しています。なお、「1e」と「2e」はそれぞれepoch数を示しています。

・(要BitTorrent)Lewd Diffusion v0

・(要BitTorrent)Lewd Diffusion 70k 1e

・(要BitTorrent)Lewd Diffusion 70k 2e

◆Yiffy

Yiffyは海外のケモナーコミュニティのDiscordチャンネルを中心に開発されたモデル。ケモナー画像投稿サイト・e621に投稿された最大7万枚の画像によるデータセットで学習しています。Yiffyにはepoch数によって3種類のモデルが存在します。

・yiffy-e13.ckpt

・yiffy-e15.ckpt

・yiffy-e18.ckpt

実際にYiffyで生成された画像がTwitterに投稿されています。

金曜の夜だし、Furry Diffusionを試してみたい。

まずyiffy-e18.ckpt

ぬぅぅ。 pic.twitter.com/VeRY18loto— 柴田　恭太朗 (@sofia_2020_sen) September 30, 2022

yiffy epoch15 出力お試し
学習データはe621を使っている模様 pic.twitter.com/pfatchpALk— 村正 | MuramasA (@MuramasA__JP) September 29, 2022

◆Furry

FurryもYiffyと同じくケモナー特化型の画像生成モデルで、e621に投稿されている30万枚の画像によるデータセットで学習済み。epoch数に応じて2種類のモデルが用意されています。

・Furry_epoch1.ckpt

・Furry_epoch4.ckpt

Furryで生成した画像はこんな感じ。

次いで、furry_epoch4.ckpt

ぬぅぅぅぅ。 pic.twitter.com/vnaAnH4TJF— 柴田　恭太朗 (@sofia_2020_sen) September 30, 2022

Stable Diffusionで動物キャラクターを作っている方にお知らせ
ついに動物キャラ(furry・ケモノ)に特化したモデルが作成されました!????????????
従来のSDやWaifuDiffusionではほぼ無理でしたが、furry_epoch4.ckpt ならこの系統の絵が出るようになります????
(あとひと工夫でゆるかわ系のキャラも作れるかも!) pic.twitter.com/mF7GwtReBF— パジョカ (Pajoca)⁰????Nya!???? (@Pajoca_) September 27, 2022

◆Zack3D_Kinky-v1.ckpt

Zack3D_Kinky-v1.ckptもe621にアップされた10万枚以上の画像を使って学習したモデルです。実際にZack3D_Kinky-v1.ckptで生成した画像が以下。

ただし、Zack3D_Kinky-v1.ckptのデータセットにはNSFW画像が含まれるため、ケモナー向けのNSFW画像も生成可能。「Transformation(体の変化)」「latex(ゴムスーツ)」「tentacles(触手)」「ferals(野生化)」「bondage(SM・緊縛)」など、多種多様な性癖に対応したケモノ画像を生成可能だとのこと。モデルは以下からダウンロードできます。

Zack3D_Kinky-v1.ckpt ~ pixeldrain

https://pixeldrain.com/u/DEocAHsx

◆r34_150k_epoch0.ckpt

Rule34にアップされた15万枚のNFSW画像で学習したモデル。

・r34_150k_epoch0.ckpt

◆pony-diffusion

海外の女児向け人気アニメ「マイリトルポニー」のSFW画像で構成されたデータセットで学習したモデル。そのため、マイリトルポニーに登場するキャラクターの画像生成に特化しています。

pony-diffusionで生成した画像の例が以下。

◆mio-wd-v1.2-e24-ex-ad

テレビアニメ化もされたマンガ「日常」に登場するキャラクター、長野原みおの画像約500枚・epoch数24で学習したWaifu-Diffusionのフォークモデル。かなり小さなモデルで、長野原みおの画像を生成することに特化しています。

mio-wd-v1.2-e24-ex-adは以下から、「epoch=000023-pruned.ckpt」としてダウンロードできます。

chavinlo/mio-naganohara-waifu-diffusion at main

https://huggingface.co/chavinlo/mio-naganohara-waifu-diffusion/tree/main

◆fubuki-ld-v1-e13-ex-ad

人気VTuberグループ・ホロライブの白上フブキの画像約5000枚・epoch数24で学習した中型モデル。

・(要BitTorrent)fubuki-ld-v1-e13-ex-ad

◆asuka-ld-v1-e4-ex-ad

人気アニメ「新世紀エヴァンゲリオン」のキャラクターであるアスカの画像1万7000枚・epoch数4で学習したプルーニング済みモデル。

・(要BitTorrent)asuka-ld-v1-e4-ex-ad

◆tomoko-kuroki-ld-v1-e20-ex-ad

人気マンガ「私がモテないのはどう考えてもお前らが悪い！」の主人公である黒木智子の画像・epoch数20で学習したプルーニング済みモデル。

・(要BitTorrent)tomoko-kuroki-ld-v1-e20-ex-ad

◆70gg30LD70k.ckpt

gg1342_testrun1_pruned.ckptとLewd Diffusion 70k 1eを70：30の比率で組み合わせて作ったモデル。これは具体的にモデルが用意されているのではなく自分で組み合わせて作りますが、Torrentでも配布されています。

・(要BitTorrent)70gg30LD70k.ckpt

◆wd1-2_sd1-4_merged.ckpt

Waifu-Diffusion v1.2と Stable Diffusion v1.4を組み合わせたモデルとのことですが、比率は不明です。

・(要BitTorrent)wd1-2_sd1-4_merged.ckpt

◆Hiten girl_anime_8k_wallpaper_4k.ckpt

Hiten girl_anime_8k_wallpaper_4k.ckptは、台湾出身のイラストレーターであるHiten氏の画像合計40枚からステップ数4000で学習することで、Hiten氏の絵柄を高い精度で再現することに特化した画像生成モデル。Hugging Faceからモデルをダウンロードすることが可能です。

BumblingOrange/Hiten · Hugging Face

https://huggingface.co/BumblingOrange/Hiten

以下はHiten girl_anime_8k_wallpaper_4k.ckptで生成された画像です。

なお、複数のモデルを使い分ける場合は、Stable Diffusionをブラウザで簡単に操作でき、さらに多機能を搭載してウェブUIの決定版ともいえる「AUTOMATIC1111版Stable Diffusion web UI」を使うのがおすすめです。インストール方法は以下の記事を読むとよくわかります。

画像生成AI「Stable Diffusion」を4GBのGPUでも動作OK＆自分の絵柄を学習させるなどいろいろな機能を簡単にGoogle ColaboやWindowsで動かせる決定版「Stable Diffusion web UI(AUTOMATIC1111版)」インストール方法まとめ - GIGAZINE

また、AUTOMATIC1111版Stable Diffusion web UIでのモデルの変更方法については、以下の記事の「◆モデルデータの変更」を参照してください。

画像生成AI「Stable Diffusion」でイラストを描くのに特化したモデルデータ「Waifu-Diffusion」使い方まとめ - GIGAZINE

みんなの感想は？

画像生成AI「Stable Diffusion」でいろいろ特化した使えるモデルデータいろいろまとめ

外部サイト

関連情報（BiZ PAGE＋）

ランキング