ブログが書けたよ!

自分がやってきたことだけなんでも書く、ジャンルむちゃくちゃマガジン

Stable Diffusionの無料DEMO版のプロンプトだけで美少女を作る!

 - , ,

      2023/07/11

最近の人工知能ブームに乗っかりまして、今度は画像を生成してくれる「Stable Diffusion」で遊んできました。

Stable Diffusionは無料の画像生成AIなんですが、その環境を作るにはある程度のPCスペックや知識が求められます。
で・す・け・ど・も!!

そのDEMO版っていうんですかね~。
特に何もしなくても、アクセスした先でStable Diffusionが簡易的に楽しめるサイトが存在しているのですよ。

[参考]Stable Diffusion DEMO

今回、それを駆使してどうにか美少女キャラを作ろうと奮起して参りました。
とりあえず作った画像と、その作成方法について共有致します。

画像の作り方

DEMO版Stable Diffusionを使った画像の作成方法はめちゃくちゃ簡単で。

作成を指示するための呪文(=prompt)を入力したら「Generate image」ボタンを押すだけ。
たとえば「a beautiful girl」とかでいいんです。(英語がわからなければGoogleの翻訳とか使えばOK)

すると・・・

こーんな感じの画像を生成してくれますので・・・!

promptを制する者がStable Diffusionを制す

で!そのプロンプトなんですけども・・・いろいろ「書き方」みたいなものがありまして。

僕はとりあえず

[参考]Stable Diffusionの呪文のコツ総まとめ!神絵師のような美麗イラストを生成しよう

[参考]【Stable Diffusion】呪文(プロンプト)のコツ!基本的な5つの法則・書き方を解説

↑これらのサイトさんを参考にさせていただきました。

(※注意)上2つのリンク先サイトではめちゃくちゃ神がかったイラストが掲載されていますが・・・DEMO版だけでここまでのものを作るのはほぼ不可です。
・・・が!ここではあえてDEMO版のプロンプトだけで勝負なのじゃ。

[参考]Stable Diffusion でうまくいった prompt を載せていくやつ

↑プロンプトだけでの勝負はこちらを非常に参考にさせて頂きました。

プロンプトにはAIが理解しやすいような特徴、シーン、スタイルなどを伝えてあげるのが基本です。

例えば先ほどの「a beautiful girl」。
DEMO版ではこれだけだとすごく抽象的過ぎて、何度回しても↑のような画像は出てきてくれません。

ではどうするかというと、「イラストであること」「〇〇風のタッチであること」「髪の毛の色や長さ」「何が美しいのか?」などを伝えてあげるわけです。
(厳密にはAIが学習したイラストに付随していたテキストなんかを参考にしているんじゃないかな?)

たとえばイラストであることなら「finely illustration」とか。
どんなタッチか?は「Akira Toriyama Style」とか「For Pixiv Fanbox」など。

「a beautiful girl」は顔が美しいのか、目が美しいのか、スタイルが美しいのか・・・その辺をカンマで区切って入力すればOK。

作成画像と例

では実際の指示例と、その時に生成された画像を載せて行きます。

[Prompt]

(masterpiece:1.3), best quality, super fine illustration, thick coating, Bold line, an extremely cute and beautiful girl, smile, style for digital art on pixiv fanbox, highly detailed beautiful face and eyes, cowboy shot, beautiful hair, white to platinum straight hair, (japanese high-school black uniform:1.1), dynamic angle, warm lighting, many luminous crystals in field, neon light

[Negative Prompt]

(ugly:1.3), bad face, bad anatomy, fantasy, monochrome, cowboy, flat color, flat shading, eye blur, turime, retro style, poor quality, low res, cropped, signature, watermark, username, artist name, text

[Guidance Scale]

8.5

以下、一つずつ見て行きますね!
まずはポジティブ側のプロンプト。

プロンプト 解説
masterpiece 美少女キャラを作る時の基本になる呪文。
「傑作」って意味なんですけど、これを指定しておくと「マスピ顔」とかいういい感じのソレになるみたい。
上にも書きましたが、おそらくは元になるイラスト投稿サイトとかの美少女イラストのタグに使われていたとか、そういうことなのかなと。
best quality これもおまじない。「最高品質で!」って感じですよね。
super fine illustration 「超くっきりイラスト」でしょうかw
これを指定することで、三次元の人間の出力が防げます。
thick coating 厚塗り。
Bold line 太い線。
an extremely cute and beautiful girl 参考サイトにあったのをそのままパクりましたが「超絶キュートで可愛い女の子」ってところでしょうか。
だいぶ抽象的ですが、「大きなおめ目で~」など具体的に指定するよりもこれぐらい抽象的な方が悪くないのを出してくれますね。
smile 笑顔
style for digital art on pixiv fanbox これが結構重要だと思ってまして。
要するに「Pixiv Fanboxに投稿するようなデジタルアートのスタイル」ということで、だいぶ具体的な指示になったかなと思います。
たぶん「ジャパニーズ・アニメスタイル」とかやるよりも、「Pixivで流行ってる絵!」って方が伝わりやすいんじゃないかな。
highly detailed beautiful face and eyes 「高密度の美しい顔と目」って感じ。
美しい部分は特に「顔と目」ですよ~って教えてあげてますね。
この辺は前の指示とかぶってますが、同じ表現を二度書くことも強調に繋がるので意味があるそう。
cowboy shot 腰より上の全体像を移すような構図の指定。
「カウボーイハットをかぶったおねーちゃん」が出てきちゃうこともあるので注意w
beautiful hair 美しい髪。これも抽象的ですが、比較的ツヤツヤした髪の毛の画像が出力される印象。
white to platinum straight hair 白からプラチナカラーのストレートヘアー。
グラデーション表現はwhite to platinum gradient hairとするのが正解でした。
japanese high-school black uniform 日本の高校の黒い制服・・・という指定。
※女子なのに学ランが出力されたりする模様。(日本の、がいらなかったかも)
dynamic angle ダイナミックなアングル。これもおまじないかな。
warm lighting あったかい光。
many luminous crystals in field 多くのクリスタルの輝きを全体に。
neon light ネオンサインの光みたいなのを追加したかったんですが、完全に無視されてますw

実際のプロンプトではmasterpieceとuniformのところにカッコとコロンが付いてますけど、これは「特にこの呪文を強調してくれよ!」という表現になっています。
例えばmasterpieceには1.3倍の強調をしていますね。

プロンプトは左に行けばいくほど優先的に、また強調構文にすればそれだけ強くその意図を汲みとってくれる、という感じにできているそうです。

ただ、この数値が強ければ強いほどいいというわけではないので、1.1~1.5ぐらいの数値で十分かと。

お次はネガティブプロンプト。
ネガティブの欄には「これは出力しないでね」っていうのを入力します。

プロンプト 解説
ugly 醜いもの!
bad face 悪い顔w 
bad anatomy これはなんでしょうねえ・・・悪い解剖??
fantasy ファンタジックな絵にしたくなかったので入れてみました。
monochrome 稀にモノクロな絵が出力されたことがあったので入力。
cowboy プロンプトに「cowboy shot」を入れたらテンガロンハットの女性ばかり出て来たので、「カウボーイは要らん」と指定w
flat color ベタ塗り・・・ですかねえ?アニメ塗りのようなイラストを避けるため?
一応指定。
flat shading ベタ影。同上。
eye blur ぼやけた目。
これを指定しておかないと目がぐしゃぐしゃっとした表現になることが多かったです。
turime ツリ目。お好みでw
retro style 古いスタイル
poor quality 低品質
low res ローレゾ。ハイクオリティとかの逆ですな。
cropped 切り取られた?奇形防止ってところみたいです。
signature~text 画像中に文字が入るのを防ぐ。

まぁ、こっちもほぼ「おまじない」みたいな感じですが、やっぱりあるのとないのとだと出力に差があります。

音楽とかでも「音が目立たないなぁ・・・」と思ってアンサンブル全体の音を大きくするよりも、いらない部分を抜いていくことでクオリティが高まることってあるんですよ。
そんな感じで、おそらくは通常のプロンプトである程度の指定をしたら、ネガティブで邪魔な要素をガンガン抜いていくっていうのがうまい使い方なのかもです。

[参考]【初心者向け】おすすめのネガティブプロンプトまとめ!!!!!

↑こちらなど参考にさせてもらいました。

あと最後のガイダンススケールの項目は、「どれだけプロンプトに忠実か?」みたいな値らしいんですが・・・まぁ、8.5ぐらいがベストかなとw

極端に大きくても小さくてもうまく働いてくれない感じです。

その他の画像例

以下、その他参考画像。

これも割と綺麗にできたかなー?と思います。手がヤバイですけどね・・・。

プロンプトは以下。(ネガティブ、ガイダンススケールは上と同じ)

masterpiece, best quality, super fine illustration, thick coating, Bold line, an extremely cute and beautiful girl, smile, style for digital art on pixiv fanbox, highly detailed beautiful face and eyes, cowboy shot, beautiful hair, pink straight bangs, (japanese high-school black uniform:1.1), dynamic angle, warm lighting

これも同じプロンプトで出力したもの。
同じ命令文でも髪色とか全然違いますね。(手がやべーところだけ同じ)

目や鼻のしたに妙な「点」ができやすいのは、もしかしたら線画表現での影を変な風に学習しちゃってんのかなー。

masterpiece, best quality, super fine illustration, thick coating, Bold line, an extremely cute and beautiful girl, smile, style for digital art on pixiv fanbox, highly detailed beautiful face and eyes, cowboy shot, beautiful hair, white to platinum straight hair, (japanese high-school black uniform:1.1), dynamic angle, warm lighting, many luminous crystals in background

↑の銀髪の子とほぼ同じで出力したもの。

同じような条件で数百回のガチャを回してますが・・・これぐらいですね~。まともに可愛い感じの美少女キャラが出来たのは。

あとは趣向は違いますが、こんなのも。

(high-school black sailor uniform:1.4), an extremely cute and beautiful girl plays electric guitar, (yellow to pink to light blue gradation hair:1.1), (masterpiece:0.9), best quality, super fine illustration, (thick coating:1.3), (Bold line:1.3), style for digital art on pixiv fanbox, highly detailed beautiful face and eyes, dynamic angle, shiny lighting, simple white background, 1980’s

足・・・どうなってんねん。。。

ガチャ要素強め

一生懸命プロンプトを指定していますが・・・ある程度の指定をしたら、あとはもう運です。
たとえば一番上の黒髪の子が出て、「よっしゃ来た来た来たぁ~!!この調子で美少女量産するでぇ~!!」つって生成ボタンを押すじゃないですか。

余裕でこんな感じの出てきますからね。

え?さっきのなんだったん??
てか、ネガティブプロンプトって生きてないん??って思いますよね。

テキスト入れんな!って指示しても余裕で入れますし。
背景シンプルに!って言っても生成しますし。

なのでまぁ、無料のDEMO版使ってる以上はもう運です。運要素強め。

だからこそ時間が溶けるんですけどね・・・。
※次はどんなのが出来るだろう・・・っていう待ち時間がワクワクしすぎて。

どっかで見たような・・・?

それからですね・・・やっぱAIって自分の意思でモノを考えてどうこうって代物じゃないんですよ。
要は学習した結果「こんなん好きやねやろ?」っていうのを提示してくれてるだけなんです。

じゃあどこから学習したのか?っていうと、先人たちが描いた絵なわけじゃないですか。
なので余裕で「あれ・・・これどっかで見たような・・・」ってヤツが生成されるので注意が必要かと。
(その辺の権利ってどうなってんすかね??)

これなんかねえ、一瞬見た時に「推しのk・・・」って思っちゃいましたもん。目の感じが。

これも・・・あいや、これは「gigantic breasts」とか指定したらワンピのしらほしちゃんみたいにマジモンのギガンテックになっちゃった・・・ってだけか。

これは鳥山風の女戦士・・・って指定して生み出されたもの。
ね・・・どっかで見t・・・見てNEEEEEE!!(髪型だけドラXのマイユ)

他にも

これとか

こんなんとか・・・

あとはセラムンっぽいヤツとか、「これ、あのゲームの画像じゃね??」とか・・・まぁ、そういうのを探ってみるのもおもろいです。

出来る人はレタッチ前提で生成するのが良いのではないか?

んで!

僕が思うに、このDEMO版っていうのはマジで限界がありまして。
もっとまともな美少女キャラを生成したければ、ハイスペマシンを用意してしっかり楽しむべきだと思うのであります。

・・・が!

逆に?
「ここがもうちょっとこうだったらなぁ・・・」みたいな子をレタッチする前提で生成するってのはどうでしょうか??

たとえばこの子!
なんかすっごい綺麗に仕上がっているのに、美少女!と呼ぶには一部デッサンが惜しいような気がしませんか??

具体的には向かって左側の目と鼻の位置がもう少し上だといわゆる「美少女面」になりそうな・・・。
(あと鼻の穴の位置も変かな?)

で、フォトレタッチソフトなんかを使って・・・

こう!!

・・・ね?なんか割と「思ってたのに近い感じ」になったでしょ?

そう考えると・・・

この子とか、

この子とかも輝く原石のような気がしてきた。(いや普通に可愛いけども)

腕が何本生えてたって自分で直せばいいのだ!

イメージの源泉として利用するのがベターかも

あとですね、このツールの正しい使い方の一つに「イメージの源泉とする」ってのがあるかも?と思いました。

毎回、同じプロンプトでも絶対に違う構図、違うテイストでイラストを生成してくれるので・・・

たとえばコレとか。
まぁ、もしかしたらこれがそもそも何かのパクリなのかもしれないけれど、これを下書きとして自分のテイストで仕上げたら面白いんじゃないかなって。(ある意味カバーみたいな)

こんなんとかもね・・・可愛いじゃん。
はぁー・・・学習した元画像が何なのか気になるw

生成されたイラストを元に「アッー!この表現があったか」みたいなのをプロンプトに追加して・・・とかも捗ります。
たとえば自分では思いつきもしなかった「ライトの位置」とかね。

ま、プロンプトはほとんど「おまじない」なので運任せですが、、、

美少女キャラ以外の可能性も

最後に・・・今回は「プロンプトだけで美少女キャラを作る!」をコンセプトに頑張ってきましたが、当然違う使い方もできます。

イラストのスタイルをたとえば「アメリカン・ピンナップ」「ハンバーガー」とかで指定すると・・・

こんなんとか。

こんなん。

自分がアメリカンなお店をやってたらポスターとかフライヤーに使いたいですよ。

こんなn・・・いや、これ何をされてるとこなのw

バーガーの上半分だけくわえてwww
クッソ笑ったw

まぁ、油断してるとすぐにこういう怖いヤツができちゃいますけども。
あいや・・・でもこれも現代アートとしていけんじゃないか・・・!?

おわりに

というわけで、DEMO版のStable Diffusionでプロンプトだけで美少女キャラを作る!というお話でした。
出オチやな。一番最初のヤツが一番美少女だったわ。

とにかくまぁ、AI・・・時間を飲まれます。楽しい。
AIには「人間の仕事がなくなるかも」みたいな懸念よりも、うまく使いこなして楽しんでいける未来を見せてほしいでんな!

追記

なんかもう気になっちゃって気になっちゃって・・・モノホンのバージョンも試してみたところ、、、

これよ。。。
上に載せたギターを持った女の子とほぼ同じプロンプトで出力されてるんですけど、洗練具合が、、、すげえ。
てか、ギターのどこ押さえて弾いてんすか・・・エアプすか。。。

DEMO版でも十分「未来」を感じたんですが、こっちはもっとその先の未来でしたよ。

いやこれ、ハマりますね、、、
今回はチュートリアルに沿って指示されたとおりのモデルデータを読ませて試しましたけど、いろんなモデルを使えばもっともっと幅が広がるんでしょう??

一応現時点ではGoogle ColabというGoogleが用意してくれた開発環境を使ってStable Diffusionを動かすことができます。
Google側のGPUをめっちゃ使ってしまうので、無料版だとすぐに制限を掛けられてしまいますが・・・低スペックマシンでもがっつりAIイラスト生成が楽しめますのでオススメざます。

【画像生成AI】強GPUパソコンを買うかGoogle Colabを使うか【Stable Diffusion WebUI】

   

 - , ,

      2023/07/11

スポンサーリンク