Stable Diffusion基本操作のコツ!画面の見方や用語から解説!
- ※当ブログはアフィリエイト・アドセンスによる収益で運営されています。
こういったお悩みにお答えします。
Stable Diffusionの操作画面や用語は独特。他の画像生成AIを使ったことがなく、『画面のどこを操作すればいいんだ…?Promptってなに?』と戸惑ってしまう方も多いでしょう。
この記事では
- Stable Diffusion基本操作のコツ!画面の見方や用語から解説!
- 画像から画像を生成するimg2imgも使ってみよう
- 余裕を持った保存容量を確保しておこう
- もっとスムーズにイラストを生成したいなら…
- 生成した大量のイラストを簡単に管理する方法
これらについて解説していくので、最後まで読むとStable Diffusionを使ってイラストを生成する方法がわかります。
-
ぶっちゃけ、この記事を1回読んだだけで全部覚えるのはムリゲー。できればブクマしておいて『あれ?この項目なんだっけ』と疑問を感じたときに再度読みに来てもらえれば幸いです。
初心者の方・Stable Diffusionに関してわからないことがある方は以下の記事も読んでみてください。Stable Diffusionのダウンロード方法や使い方について詳しく解説しています。
>>【完全初心者用ガイド】Stable Diffusionの使い方を徹底解説!
Stable Diffusionの操作画面の見方・用語を解説
まずは最もよく使うであろう『txt2img(テキストからイラストを生成)』について解説していきます。
Stable Diffusionを起動すると、以下のような操作画面が現れます。
- ①Stable Diffusion checkpoint
- ②Prompt
- ③Negative prompt
- ④Sampling method
- ⑤Sampling steps
- ⑥Width・Height
- ⑦Batch count・Batch size
- ⑧CFG Scale
- ⑨Seed
- ⑩Script
- ⑪Generate
- ⑫5つのアイコン・Styles
- ⑬イラストの表示スペース・6つのボタン
画面をこのように13分割して順番に解説していきますね。
①Stable Diffusion checkpoint
画面の一番左上。選択しているcheckpointの種類が表示されています。checkpointとは『学習済みデータ=モデル』のことです。どんな画像を基に学習したモデルなのかで、生成されるイラストの特徴は大きく変わります。
例えば…エロ画像を中心に学習したモデルであれば、生成される画像もエロ方面に強くなるといった感じですね。
モデルデータの拡張子はもともと.ckpt(checkpointの略)だったのですが、最近はセキュリティに優れる.safetensorsが主流。
いずれ項目名も『Stable Diffusion safetensors』とかになるかも。
②Prompt(プロンプト)
この画面において最も重要な要素です。Prompt・Negative prompt(後述)は『呪文』とも総称され、生成してほしいイラストの特徴をStable Diffusionに指示します。
実際に試してみましょう。promptの項目に『a cat』と入力し、右側にある『Generate』を押してみてください。
(クオリティはともかくとして)猫のイラストが生成されたはず。これが最も基本的なStable Diffusionの使い方です。
もしイラストが気に入らなければ、再度Generateボタンを押すと何回でも新しく生成してくれます。実際、体の形がヘンな猫のイラストもたくさん生成されたのではないでしょうか。
良いイラストと出会うためには、『Promptを調整しつつひたすら生成を繰り返す』という作業が必要になることは覚えておきましょう。
なおpromptは必ずしも単語である必要はありません。『cat sleeping on desk(机の上で寝ている猫)』のような文節でもOK。
どこまでStable Diffusionと意思疎通ができるか、いろいろなPromptを試してみてください。
③Negative prompt(ネガティブプロンプト)
Promptとは逆で、『生成してほしくない特徴』をStable Diffusionに指示する項目です。
例えば『しっぽのない猫のイラスト』を作る場合を考えましょう。こんなときに活躍するのがNegative prompt。
- Prompt:a cat(猫のイラストを生成してね)
- Negative prompt:tail(しっぽは描かないでね)
こんな指示をStable Diffusionに送ることで、しっぽのない猫のイラストが生成されます(百発百中ではありませんが…)。とりあえずここではNegative promptの考え方だけでも理解してもらえたら幸いです。
④Sampling method
イラスト生成時のアルゴリズムで、生成されるイラストの絵柄と生成速度に影響します。『Sampler』と表示しているサイトも多いですが、両者は同じものです。
とても多くの種類があり、どれを選んでいいかわからないと思いますが
出典元:Hugging Face
使用するモデルによっては特定のSampling methodを推奨しているものも。その場合は迷わず推奨されているものを選びましょう。
特に指定がない場合は、基本的にDDIMがおすすめ。少ないstep数で高品質なイラストを生成してくれます。
Sampling methodについて詳しく知りたい方は以下の記事も合わせてお読みください。
>>Stable DiffusionのSampling method(サンプラー)ってなに?違いは?
また、Sampling stepsの下にはRestore faces・Tiling・Hires.fixという3つのチェックボックスがあります。これはいずれも生成されるイラストを補正する要素。順番に見ていきましょう。
Restore faces
『顔を左右対称にする』という補正をかけてくれるのですが、古い機能で評判はあまりよくありません。初心者の方はとりあえず触らなくて大丈夫です。
特にアニメ系のイラストを出力する場合は、イラストのクオリティが下がるので確実にチェックを外しておきましょう。
Tiling
Promptの内容をイラスト全体に敷き詰めてくれる機能。正直、使ったことがありません。
試しに『a cat』で生成したところこんな感じでした。いつ使うんでしょうね。
Hires.fix
Hires.fixを使うと『高画質のイラストを生成する』という工程を
- STEP1:標準サイズでイラストを生成する
- STEP2:イラストを拡大する(このとき画質は荒くなる)
- STEP3:荒く拡大されたイラストをimg2imgできれいにする
これら3つに分けてくれる機能です。
わざわざ3つに分ける理由ですが、モデルは高画質のイラストを生成するのが苦手なんです。これは多くのモデルが512×512サイズの画像で学習しているから。
そのため、いきなり高画質のイラストを生成しようとすると上手くいかない可能性が大。構図が破綻しがちです。
そこで登場するのがHires.fix。はじめに標準的なサイズでイラストを作るので構図が破綻しづらいのがメリット。
それから(構図を維持したまま)拡大 → 高画質化していくので、元の構図を尊重したまま高画質なイラストを手に入れることができます。
まともな高画質イラストを生成するため、Hires.fixを使って解像度を上げていきましょう。
Hires.fixの仕組みと使い方について詳しくは以下の記事で解説しています。
>>【Stable Diffusion】Hires.fixで解像度を上げて高画質化する方法
⑤Sampling steps
ざっくり説明すると『ノイズを何回除去するか』を表す数値です。
Stable Diffusionはこのようなノイズ画像からノイズを取り除いていくことによってイラストを生成しています。
1回だけしかノイズを除去しない場合
こんな感じのとても品質が低いイラストしか生成されません。
一方、40回かけて丁寧にノイズを除去していくと
きれいなイラストができあがります。
『結局、いくつに設定すればいいの?』という話ですが、これは使用するSampling methodの種類によって大きく2つに分かれます。
Sampling method | おすすめのstep数 | |
通常グループ | ・Euler a ・Euler ・DPM++ 2M ・DPM fast ・LMS Karras ・DPM++ 2M Karras ・DDIM ・PLMS ・UniPC |
15~20step |
2次ソルバー | ・Heun ・DPM2 ・DPM2 a ・DPM++ 25 a ・DPM++ SDE ・DPM2 Karras ・DPM2 a Karras ・DPM++ 25 a Karras ・DPM++ SDE Karras |
10~15step |
よくわからない方はとりあえずSampling methodをDDIMにして、15~20stepあたりに設定しておきましょう。
なおSampling stepsについて詳しく知りたい方は以下の記事も合わせて読んでみてください。
>>【Stable Diffusion】Sampling stepsってなに?stepごとの違いを比較!
⑥Width・Height
生成するイラストのサイズを表します。初期設定は512×512。これは多くのモデルが最も得意なサイズです。
サイズを大きくするほどVRAMの使用量は増え、生成にかかる時間も長くなります。まずは512×512の周辺の数字で生成しましょう。
⑦Batch count・Batch size
Batch countは、入力された条件でイラストを生成する回数。Batch countが1なら1枚のイラストを生成して終わり。2ならその処理を2回繰り返して2枚のイラストを生成します。
一方、Batch sizeは同時に生成するイラストの枚数です。Batch sizeが2なら2枚のイラストを並行して生成するイメージ。
例えばBatch count:3でBatch size:5の場合、生成されるイラストは15枚になります(『並列で5枚描く』という作業を3回繰り返すため)。
どう使い分けるの?
変わります。
例えば、もしあなたが3枚のイラストを生成したい場合
- Batch count:3、Batch size:1
- Batch count:1、Batch size:3
この2パターンが考えられます。
生成速度が速いのは、基本的には後者(Batch sizeの数字が大きい場合)です。並列処理をするのに十分なVRAM容量がある場合はBatch sizeで並列処理をすることで生成枚数を稼ぎましょう。
一方、VRAMの容量が少ないと並列処理に対応できずにエラーになってしまいます。
あなたのパソコン(特にグラボ)のスペックと相談しながら数字を調整してみてください。
⑧CFG Scale
入力したPromptにどのくらい従わせるかを示す数値。数字が大きいほどPromptを順守させます。
どのくらいがいいかはケースバイケース。一般的には10未満で運用されています。
望ましいCFG Scaleの数値を指定しているモデルもあるので、まずは使用モデルのダウンロードぺージを確認しましょう。
⑨Seed
生成したイラストごとにランダムで割り振られる番号です。
逆にSeed値を指定することで、同じイラストを何枚でも生成することができます。
Seed値を固定したままモデルなどの条件を変えて生成することで、絵柄の違いが検証しやすくなります。
モデルAとモデルBの差を比較したくても、普通に生成したら別の絵柄になってしまいます。これではわかりづらいですよね。
比較しやすいよう、同じ絵柄のイラストを出力するときにSeed値が活躍しています。
なお初期状態で入力されている『-1』は特定のイラストではなくランダムのこと。
右側にあるサイコロのアイコンはSeed値を初期状態(-1)に戻し、リサイクルのアイコンは直前のSeed値を呼び出してくれます。Seed値を指定して作業を行う場合は使ってみましょう。
⑩Script
基本的には『None』のままでOK。比較画像を作成したいなど、特殊な用途でのみ利用します。
こんな比較画像(マトリクス表)を作りたくなったら触ってみてください。詳しい使い方は以下の記事で解説しています。
>>【Stable Diffusion】簡単にパラメータの違いが比較できる『XYZ plot』の使い方
⑪Generate
イラストの生成を開始するボタンです。
生成中は『Interrupt』と『Skip』のボタンに変わるため、それぞれ中断orスキップしたいときに使いましょう。
Generateボタンを右クリックすると
- Generate forever
- Cancl generate forever
という2項目が表示されます。
Generate foreverを選択するとStable Diffusionはイラストを生成し続けます。離席するときなどにおすすめですね。
なお途中でPromptを変更すると、次回の生成から反映してくれるのも地味に便利。いちいち生成を止めなくても条件を改善していくことができます。
⑫5つのアイコン
Generateボタンの下には、これら5つのアイコンがあります。それぞれ解説していきますね。
一番左:矢印のアイコン
これは前回使っていたPromptを呼び出すためのものです。
Stable Diffusionを終了してもデータが保持されるので、起動後すぐに押すと終了前のPromptが表示されて便利。
ただしこまめにStyle(後述します)として保存するなら、このアイコンはあまり使わないかも。
左から二番目:ゴミ箱のアイコン
Prompt・Negative Prompt欄の内容を消去してくれるアイコンです。『他サイトからPrompt一式をコピペしてきた』など、既存のPromptが不要になったタイミングで押しましょう。
左から三番目:花札のアイコン
一番重要なアイコンです。押すとTextual Inversionやモデル・LoRAなどのファイルが一覧で表示されるのでとても便利。
特にLoRAをクリックすると、対応するトリガーワードが自動でPromptとして書き込まれます。LoRAをよく切り替える方は頻繁にお世話になるでしょう。
『LoRA?なんのこっちゃい』という方はとりあえず読み飛ばしてください。
左から四番目:クリップボードのアイコン
選択されているStyles(次の項目で解説します)をPrompt欄に適用します。決定ボタンみたいな感じ。
左から五番目:フロッピーディスクのアイコン
現在書き込まれているPrompt・Negative Promptを『Styles』として保存するボタンです。
直前のPromptしか呼び出せない矢印アイコンと違い、一度保存したStylesは下のプルダウンからいつでも呼び出し可能。気に入ったPromptが書けたら保存しておくのがおすすめです。
Stylesの適用するときは、プルダウンでStyleを選んでからクリップボードのアイコンを押しましょう。Prompt欄・Negative Prompt欄に反映されます。
⑬イラストの表示スペース・6つのボタン
イラストを確認するための表示スペースに関しては説明不要でしょう。
その下にある6つのボタンですが、これは表示されているイラストを管理するものです。
一番左の、フォルダのアイコンが書いてあるボタンを押すと
- stable-diffusion-webui / outputs / txt2img-images / 日付
のフォルダが開きます。これは生成したイラストがすべて保存されるフォルダです。
大量のイラストを生成すると、この保存フォルダ内がすごいことに。『あのイラストどこだっけ?』と探そうとしても、見つけ出すのがとても大変です。
それを解決してくれるのが『Save』や『Zip』のボタン。ここで保存したイラスト(やzipファイル)は
- stable-diffusion-webui / log / images
という別のフォルダに保存されます。これならお気に入りのイラストを後から見つけるのも簡単ですよね。
右側3つのボタンについては長くなるので割愛。
画像から画像を生成するimg2imgも使ってみよう
Stable Diffusionにはここまで解説してきた『txt2img(テキストからイラストを生成する)』モード以外に『img2img(画像からイラストを生成する)』モードもあります。
img2imgでは元となる画像+呪文(プロンプト)で指示を出せるため、あなたのイメージをより正確にStable Diffusionに伝えやすいのがメリット。
txt2imgに慣れてきたらimg2imgもぜひ使ってみてください。img2imgの使い方について詳くは以下の記事で解説しています。
>>【Stable Diffusion】画像から画像を生成するimg2imgの使い方を解説!
もっとスムーズにイラストを生成したいなら…
もしあなたがもっと快適にAIイラストを生成したいなら、グラボを見直してみるのがおすすめです。
グラボはAIイラストを生成するうえで最も重要なパーツ。いくらCPUやメモリが高性能でもグラボがしょぼかったら致命的です。
本格的に取り組んでいくのなら、グラボにはケチらず投資しましょう。最低でも12GBのVRAMは確保しておきたいところ。VRAMが2GB・4GBくらいしかない古いグラボだと高解像度化や学習に大きな支障が出てしまいます。
コスパを重視する方・予算が5万円以下の方はRTX 3060一択と言っていいでしょう。
もう少し予算が確保できて、さらにハイスペックなグラボに興味がある方は以下の記事もお読みください。きっとあなたに合ったグラボが見つかりますよ。
>>【コスパ重視】Stable Diffusionにおすすめのグラボ3選!
PCごと買い替えを検討している方は以下の記事をお読みください。快適にStable Diffusionを使えるマシン3選を紹介しています。
>>Stable Diffusionにおすすめのパソコン3選と推奨スペックを解説!
生成した大量のイラストを簡単に管理する方法
Stable Diffusionで生成した大量のイラストを効率的に管理するなら『Eagle』というツールがおすすめ。
イラストを生成するとメタデータが自動でEagleに送られ、タグやメモとして保存されます。このタグを使うことで検索や管理がとても楽ちん。
例えば『a dog』というタグで検索すると、そのプロンプトで生成されたイラストだけを表示することができます。『あのイラストどんなプロンプトで生成したっけ?』『LoRAのトリガーワード忘れた』なんて迷わずに済みますよ。
Eagleは本来『約4,000円・買い切り型』の有料ツールですが、30日間の無料体験ができるので、とりあえず試してみてください。
『Stable Diffusion基本操作のコツ!画面の見方や用語から解説!』のまとめ
- 操作画面を13のパーツに分割して解説しました
- まずは基本のtxt2imgモードでイラストを作ってみよう
- 分からなくなったらまたこの記事に戻ってきてね
ここまでお読みいただきありがとうございました!
他にもわからないことがあったら以下の記事をお読みください。初心者向けにStable Diffusionの使い方を一から解説しています。