LoRA学習strength1編

329ai_image_stablediffusion_repeat_strength1_00eyecatchAI画像生成
広告
サスケ
サスケ

プロンプト追加でのAIイラスト生成は比重0.9でやっていたが、1.0だとどうなるのか? 気になったのでやってみた

ミノ子
ミノ子

サスケさんってたまに真面目になって細かい検証しますよね

サスケ
サスケ

っていうのは建前で、Paperspaceがなかなか空いてないからなだけでしたー

ミノ子
ミノ子

……騙された。感心して損した

要約

これまでおこなったrepeat=5, 10, 20のLoRAに関して、比重「1.0」で確認をおこないます。たしかに再現性は高いのですが赤紫問題もあるので、やっぱり比重「0.9」が無難かもしれません。

それ以外として、repeat=10の優位性を同時評価において確認できたのが今回の大きな収穫です。これまではそれぞれのrepeatでバラバラでしたけど、同時に生成してもらったAIイラストでもやっぱりrepeat=10が最も良さげす。

はじめに

繰り返し数変化の追加検証的な感じです。以下おさらい。

LoRA学習において大事なパラメーターは学習画像枚数(image)、繰り返し数(repeat)×エポック数(epoch)みたいです。imageは準備した画像の枚数、repeatは同じ画像を学習する回数、epochは学習全体の回数っぽいです。

ステップ数(step)との関係は image × repeat × epoch = step だとか。もちろんstepが大きいほど時間がかかります。なんとなくstepは大きければ大きいほど良さそうな気がしますが、ちょうどいい値を超えると勉強し過ぎの過学習になるそうです。

stepは4000~6000にしろという話や、5000~10000が良いという意見やらいろいろあります。まだよくわかってない、というのもあるでしょうが、たぶん学習内容によっても変わってくるのでしょう。

ちょうど良い条件を探すために、これまでrepeat=5, 10, 20を確認しました。たぶんrepeat=10が当サイトの学習では良さげ、っていう結論です。これらの検証は比重「0.9」で確認しました。最初の検証の過程で、それくらいがちょうど良いと考えたためです。

しかしその後、動作を表すプロンプトを追加するにあたり、「1.0」だったらもっと再現性が良いのだろうか? ということが気になってきました。ちょっと細かすぎではありますが、今回はそれを確認します。

さすがに比重「1.0」は整合性が難しいらしく、今回は赤紫の多い記事になりますよ。

↓Paperspaceのまとめ記事作りました。ほとんど自作LoRA学習まとめですけど。

↓repeat=10の結果です。アイキャッチ画像左側のミノ子が今のところ最強。

動作プロンプト追加で比重「1.0」

前提条件

普通にAIイラストを生成してもらうだけなら、比重「1.0」でもやってきました。なので今回は動作を表すプロンプトを追加したもののみの検証となります。以下、お馴染みの条件です。

噂に高いkohya版LoRAを使用。repeat=5はepoch=16, 32, 48, 64, 80、repeat=10はepoch=8, 16, 24, 32, 40、repeat=20はepoch=4, 8, 12, 16, 20の結果を示します。image=30だから、それぞれstep=2400, 4800, 7200, 9600, 12000ですよ。

モデルは「SukiyakiMix-v1.0-fp16.safetensors」で、VAEは「orangemix.vae.pt」。その他は以下の方法でPaperspaceにStable Diffusionを導入したデフォルトの状態です。

動作なしのプロンプト①は今回使いません。プロンプト②は「girl 1, smile, right hand punch practice. in the mysterious forest」、③は「girl 1, smile, having a drink, in the streets of medieval Europe」とします。

ネガティブプロンプトは「worst quality, low quality, bad anatomy, nsfw, text, signature, watermark, username, missing limb, bad hands, missing fingers, extra digit, fewer digits」です。

プロンプト②

それでは早速プロンプト②で生成してもらいます。AIイラストが破綻しつつあると赤紫っぽくなる印象があるのですが、やっぱり比重「1.0」は整合性がとりづらいのか、赤紫画像が多いです。

こうやって見るとrepeat=10の優位性がわかりやすいです。ちょっと赤紫多めですけど、repeat=10のepoch=32と40が、リボンと校章ワッペンを両方備えたほぼ完璧ミノ子です。repeat=20は次点ですがワッペンを再現できたものはゼロ。

そうはいっても赤紫はマズいので、やっぱり比重「0.9」にして破綻を少なくするとか、頑張ってガチャするとか、そういう工夫が必要っぽい気がします。

プロンプト③

お次はプロンプト③です。これまでの検証から②よりも③のほうが難しく、再現性はとんでもなく低いことがわかっています。

……これはムズイ。リボンと校章ワッペン両立はゼロ、っていうかワッペンがまったくない。全滅です。いっぽうでこちらは赤紫が見当たらない。わりと早めに諦めたから赤紫にならなかった? 知らんけど。

かろうじて近そうなリボンをつけているのがrepeat=10のepoch=32と40です。やっぱりこのあたりの再現性が高いみたい。PixAI.artに投稿して、ラノベ挿絵に使うLoRAとしては今のところ最有力候補です。

*Paperspaceは誰かの紹介で始めたほうがお得です。詳しくは「PaperspaceでWebUIなStable Diffusion」をご参照ください。以下のリンクから登録すると当サイト経由ということで割引コードが適用されます。

Paperspace
Build and scale ML applications with a cloud platform focused on speed and simplicity.

クレジットカード登録が気乗りしないならVプリカの使用をおすすめします。貧乏性でVプリカの手数料が気になる or ポイ活的に補いたいって人は、ポイントインカムからVプリカに交換して資金を調達する方法もあります。

まとめ

これまでおこなったrepeat=5, 10, 20のLoRAに関して、比重「1.0」で確認をおこないました。たしかに再現性は高いのですが赤紫問題もあるので、やっぱり比重「0.9」が無難かもしれません。

それ以外として、repeat=10の優位性を同時評価において確認できたのが今回の大きな収穫です。これまではそれぞれのrepeatでバラバラでしたけど、同時に生成してもらったAIイラストでもやっぱりrepeat=10が最も良さげす。

……あと気になるのはrepeat=15? 最有力の10と次点の20のあいだ。これがちょっと引っかかる点ですよ。

↓黒服率を下げるために余計なプロンプトを取り除いた記事です。

↓え? LoRA学習に興味ある? よろしい! ならばkohya版LoRAだ!

↓LoRA投稿先はやっぱりPixAI.artを考えてます。

↓PixAI.artのモデル「Moonbeam」が良さげな印象です。

↓点数付け評価はじめました。

↓動作ありのプロンプト②と③のまとめです。やっぱりrepeat=10が強い。