【Stable Diffusion】Clip Skipの意味とは?設定方法を解説!
- ※当ブログはアフィリエイト・アドセンスによる収益で運営されています。
こういったお悩みにお答えします。
Stable Diffusionの重要な設定項目の一つであるClip Skipですが、知らずに初期設定(Clip Skip:1)のままで使っている人も多いのが現状。思いどおりのイラストが生成されないのはそのせいかもしれません。
この記事では
これらについて解説していくので、最後まで読むと適切なClip Skipに設定したうえでイラストを生成することができます。
初心者の方・Stable Diffusionに関してわからないことがある方は以下の記事も読んでみてください。Stable Diffusionのダウンロード方法や使い方について詳しく解説しています。
>>【完全初心者用ガイド】Stable Diffusionの使い方を徹底解説!
【Stable Diffusion】Clip Skipの意味とは?
Clip Skipとは、『入力した呪文(プロンプト)をどれだけ正確に反映してほしいか』の指標です。
Clip Skipは1~12までの範囲で設定することができ
- Clip Skipの値が小さい:プロンプトどおりのイラストが生成される
- Clip Skipの値が大きい:プロンプトを無視したイラストが生成される
というのが基本的な考え方です。
『じゃあ、Clip Skipはずっと1にしておけばいいのでは?』と思ってしまいますが、モデルによって最適なClip Skipの値が違うのが現状。Clip Skip:2の方が(1よりも)正確な結果を出してくれる、というモデルも多いのです。
基本はClip Skip:2に設定しておき、『プロンプトがうまく反映されないな』と思ったらClip Skip:1に変えるくらいがおすすめです。
なおClip Skipを3以上に設定するのはやめておきましょう。プロンプトが無視されやすくなるだけですからね。
まあ論より証拠ということで、Clip Skipによって絵柄がどう変わるのか実際に見ていきましょう。
- 1 girl,solo,red long hair,black eyes,t-shirt,skirt,animal ears,full body,
こんな感じのプロンプトで試してみます。『女の子・赤くて長い髪・黒い目・Tシャツ・スカート・ケモ耳』という属性はどのくらい反映されるのでしょうか。
Clip Skip:1では髪色は正確ですが、目の色は不正確です。Clip Skip:2は逆に髪色が微妙で目の色は正確。
このようにClip Skipによってプロンプトの効き方が変わってくるので、必要に応じて使い分けるのがおすすめ。あなたが望む結果に近い方を採用しましょう。
また、Clip Skip:4では髪色が完全に無視されていますね。
Clip Skip:5を超えると髪色はガン無視。Clip Skip:7以降はスカートも無視、Clip Skip:8ではケモ耳までなくなってしまいました。
最後のClip Skip:12ではTシャツでもなくなっています。ケモ耳だけなぜか復活してますが。
全体的な傾向として、Clip Skipが大きくなるにつれて、どんどんプロンプトが無視されるということがおわかりいただけたのではないでしょうか。
このように同じプロンプト・Seed値で比較しても、Clip Skipの値によって絵柄が大きく変わってしまいます。他の人のプロンプトから同じイラストを生成したい場合は、当然ながらClip Skipの値も合わせる必要があるので注意しましょう。
Clip Skipのもうちょっと詳しい解説
Stable Diffusionでは、プロンプトによる指示をいくつもの『レイヤー(層)』に分割して受け取ります。
そして、このレイヤーは数字が増えるほど細かい情報を扱うのが特徴。
例えば、人物のイラストを生成しようとすると
- 第一レイヤー:人物
- 第二レイヤー:男性or女性
- 第三レイヤー:(男性の場合)おじいちゃんor中年男性or若い男性or男の子…など
- 第四レイヤー:もっと細かい情報
- 第五レイヤー:もっともっと細かい情報…以下のレイヤーに続く
こんなイメージでStable Diffusionに指示が送られます。
『で、どのレイヤーまで処理する?』ということを決めるのがClip Skipの値。
- Clip Skipが1:一番最後のレイヤー(つまり全レイヤー)まで処理
- Clip Skipが2:最後から2番目のレイヤーまで処理(最後のレイヤーは無視する)
- Clip Skipが3:最後から3番目のレイヤーまで処理(最後のレイヤーと最後から2番目のレイヤーは無視する)
という感じで、Clip Skipを大きくしていくとどんどん処理されるレイヤーの数が少なくなっていきます。その結果細かな情報から順番に切り捨てられていくため、反映されないプロンプトが増えていくといったイメージですね。
反対に、第一レイヤーで扱っている『人物』という情報はClip Skipの値にかかわらず高確率で最後まで残り続けます。
基本的にはClip Skipは小さい値(1)の方がいいのですが、もともとClip Skip:2で追加学習している(Clip Skip:2の方が正確な結果になる)モデルも多く、最近では2が主流であるといった感じです。
以上がGithubなどを読んだ筆者の理解ですが、もっと詳しく知りたい方は直接こちらをお読みください。解釈違いがあったらすみません。
Clip Skipの設定・変更方法を解説
初期状態では、Stable Diffusion web UIにはClip Skipの設定項目はありません。わざわざ手動で追加してあげる必要があります。
けっこう大事なパラメーターだと思うんですけどね…。
追加の仕方はVAEのときと同じ。
『Settings』タブ内の『User Interface』を選択すると、下の方に『Quicksettings list』という項目があります。
初期状態だと『sd_model_checkpoint』、VAEについて設定済みの方は『sd_model_checkpoint,sd_vae』と記載されているはず。
ここに『,CLIP_stop_at_last_layers』と追記しましょう。
その後、左上の『Apply settings』ボタンで変更を保存してから、右上の『Reload UI』で再起動すると
操作画面の上の方に『Clip skip』の調節バーが現れます。これで手軽にClip Skipの値を変更できるようになりました。
もっとスムーズにイラストを生成したいなら…
もしあなたがもっと快適にAIイラストを生成したいなら、グラボを見直してみるのがおすすめです。
グラボはAIイラストを生成するうえで最も重要なパーツ。いくらCPUやメモリが高性能でもグラボがしょぼかったら致命的です。
本格的に取り組んでいくのなら、グラボにはケチらず投資しましょう。最低でも12GBのVRAMは確保しておきたいところ。VRAMが2GB・4GBくらいしかない古いグラボだと高解像度化や学習に大きな支障が出てしまいます。
コスパを重視する方・予算が5万円以下の方はRTX 3060一択と言っていいでしょう。
もう少し予算が確保できて、さらにハイスペックなグラボに興味がある方は以下の記事もお読みください。きっとあなたに合ったグラボが見つかりますよ。
>>【コスパ重視】Stable Diffusionにおすすめのグラボ3選!
PCごと買い替えを検討している方は以下の記事をお読みください。快適にStable Diffusionを使えるマシン3選を紹介しています。
>>Stable Diffusionにおすすめのパソコン3選と推奨スペックを解説!
生成した大量のイラストを簡単に管理する方法
Stable Diffusionで生成した大量のイラストを効率的に管理するなら『Eagle』というツールがおすすめ。
イラストを生成するとメタデータが自動でEagleに送られ、タグやメモとして保存されます。このタグを使うことで検索や管理がとても楽ちん。
例えば『a dog』というタグで検索すると、そのプロンプトで生成されたイラストだけを表示することができます。『あのイラストどんなプロンプトで生成したっけ?』『LoRAのトリガーワード忘れた』なんて迷わずに済みますよ。
Eagleは本来『約4,000円・買い切り型』の有料ツールですが、30日間の無料体験ができるので、とりあえず試してみてください。
『【Stable Diffusion】Clip Skipの意味とは?設定方法を解説!』のまとめ
- Clip Skipはプロンプトをどこまで正確に扱うかの指標
- 基本は『Clip Skip:2』の状態で生成するのがおすすめ
- Clip Skip:3以上に設定するのは非推奨
ここまでお読みいただきありがとうございました!
他にもわからないことがあったら以下の記事をお読みください。初心者向けにStable Diffusionの使い方を一から解説しています。