LoRA学習動作ありプロンプトまとめ

331ai_image_stablediffusion_move_summary_00eyecatchAI画像生成
広告
サスケ
サスケ

アソビタイ……、AIいらすとノ術デアソビタイ……

ミノ子
ミノ子

かわいそうに。自業自得とはいえ、変な検証続きでおかしくなってしまった……

サスケ
サスケ

うがー! 限界だー! 遊ばせろー! もうミノ子は飽きたー!

ミノ子
ミノ子

ついに狂った! っていうか最後失礼!

要約

LoRA学習のrepeat=5, 10, 20の動作ありプロンプトについて、これまで検証した結果をまとめます。さらに今回は画像を点数付けして、ちょっとだけ曖昧さを回避しました。その結果やっぱりrepeat=10が優位であることを確認できました。

はじめに

そろそろ限界です。LoRA学習の繰り返し数を変えて検証を続けて、ある程度方向性も見えてきました。この勢いで繰り返し数15もやってみようと思ってたけど、さすがに飽きてきた。今回を最後にちょっと遊びます。

最後の力を振り絞って、いつものおさらいを以下に示します。

LoRA学習において大事なパラメーターは学習画像枚数(image)、繰り返し数(repeat)×エポック数(epoch)みたいです。imageは準備した画像の枚数、repeatは同じ画像を学習する回数、epochは学習全体の回数っぽいです。

ステップ数(step)との関係は image × repeat × epoch = step だとか。もちろんstepが大きいほど時間がかかります。なんとなくstepは大きければ大きいほど良さそうな気がしますが、ちょうどいい値を超えると勉強し過ぎの過学習になるそうです。

stepは4000~6000にしろという話や、5000~10000が良いという意見やらいろいろあります。まだよくわかってない、というのもあるでしょうが、たぶん学習内容によっても変わってくるのでしょう。

今回はこれまでおこなったrepeat=5, 10, 20の動作ありプロンプトに対するまとめです。

↓Paperspaceのまとめ記事作りました。ほとんど自作LoRA学習まとめですけど。

↓前回の記事、動作なしプロンプトに対するまとめです。

動作なしプロンプトまとめ

前提条件

条件はいつもと同じです。

噂に高いkohya版LoRAを使用。repeat=5はepoch=16, 32, 48, 64, 80、repeat=10はepoch=8, 16, 24, 32, 40、repeat=20はepoch=4, 8, 12, 16, 20の結果を示します。image=30だから、それぞれstep=2400, 4800, 7200, 9600, 12000ですよ。

モデルは「SukiyakiMix-v1.0-fp16.safetensors」で、VAEは「orangemix.vae.pt」。その他は以下の方法でPaperspaceにStable Diffusionを導入したデフォルトの状態です。

今回はプロンプト②「girl 1, smile, right hand punch practice. in the mysterious forest」と③「girl 1, smile, having a drink, in the streets of medieval Europe」を使います。①は前回やったので無しの方向で。

ネガティブプロンプトは「worst quality, low quality, bad anatomy, nsfw, text, signature, watermark, username, missing limb, bad hands, missing fingers, extra digit, fewer digits」です。

今回も画像の点数評価も行います。独断と偏見で服、髪、リボン、校章、破綻について評価。


  • 1点:白っぽい服を着ている
    2点:リボンと校章ワッペン以外白無地のローブを着ていて、インナーも白

  • 1点:黒髪
    2点:黒髪ショートカット
  • リボン
    1点:首のあたりにそれらしきものがある(棒タイ、紐も可)
    2点:胸元に赤系のリボンがある
  • 校章
    1点:胸元近くに何かがある(胸ポケット、肩ワッペンも可)
    2点:胸元にワッペンがある
  • 破綻(これだけマイナスポイント)
    1点:小さな破綻がある
    2点:大きな破綻がある

かなり曖昧な評価ですけど、点数付けをすることで分かりやすくなるかと思います。ちなみに破綻については甘めです。手がおかしいとか、この服どうなってるの?とか言い出したらキリがないので。

プロンプト②比重「0.9」

これまでの検証で、プロンプト①⇒②⇒③の順に再現性が高いことがわかっています。これはなんとなく評価でしたけど、点数付けするとどうなるのか?

repeat=10の優位性は揺るぎないかと思います。あれ? 動作なしだとイマイチだったepoch=32がなかなか良い感じです。ちょっと破綻しているけどこれくらい及第点ですよね。

331ai_image_stablediffusion_move_summary__01p2s09_detail
LoRA学習動作ありプロンプトまとめ – プロンプト②比重「0.9」詳細

点数をつけるとこんな感じになります。「repeat : 20、epoch : 20」のフードが悩みどころですよね。白くてそれっぽいから2点でも良いんですけど、厳しめの1点にしました。

331ai_image_stablediffusion_move_summary__02p2s09
LoRA学習動作ありプロンプトまとめ – プロンプト②比重「0.9」まとめ

まとめると上記のようになります。やっぱりrepeat=10は強い。5と20はわりとプロンプトやら比重によって変わるっぽいですけど、10の優位性は変わらないです。

プロンプト②比重「1.0」

これはすでに以前横並び評価をしています。ということで画像に関しては以下をご覧ください。

アイキャッチがすでにそうですけど、赤紫多めの破綻気味画像が目立ちます。

331ai_image_stablediffusion_move_summary__03p2s10_detail
LoRA学習動作ありプロンプトまとめ – プロンプト②比重「1.0」詳細

repeat=10のepoch=32, 40は破綻さえなければ完璧です。でもさすがにあれだけ大きな赤紫を見逃すわけにはいかないしー。

331ai_image_stablediffusion_move_summary__04p2s10
LoRA学習動作ありプロンプトまとめ – プロンプト②比重「1.0」まとめ

まとめるとこんな感じ。repeat=10はもうちょっとガチャれば8点行くかもって気もしてます。こうやってみると、epochの差よりもrepeatの差のほうが顕著な気がしてきます。

プロンプト③比重「0.9」

プロンプト③は今回もっとも再現性が低いものとなっています。何でですかね? 動作なしの①がやりやすいのはわかるけど、②と③の差が不明。ともかく経験的に③が一番難しいみたいです。

……まあムズイですよね。ストロー何本刺さってんだとか、もはやストローですらないとか、ツッコミどころが多いです。

331ai_image_stablediffusion_move_summary__05p3s09_detail
LoRA学習動作ありプロンプトまとめ – プロンプト③比重「0.9」詳細

点数付けはこんな感じになりました。明確な優位性があるってよりは、ばらつきが大きい。最高点は「repeat : 5、epoch : 64」ですけど、フードに足を引っ張られた「repeat : 10、epoch : 32」だっておそらく同等以上の見た目です。

331ai_image_stablediffusion_move_summary__06p3s09
LoRA学習動作ありプロンプトまとめ – プロンプト③比重「0.9」まとめ

ということでrepeat=10が5に負けました。でもまあ、これは有意差というよりは、おしなべてダメって感じで、どっちもどっちな気がします。根本的な対策が必要な予感。あるのかどうか知らんけど。

プロンプト③比重「1.0」

これまた画像は評価済み。詳しくは前述のとおり当サイトの該当する記事をどうぞ。

破綻が少ない、っていうかプロンプト②と違って色々諦めた感が漂う気がします。②はわりと頑張って再現しようとして破綻したけど、③はもういいやって最初からあんまりこだわらなかった雰囲気。

331ai_image_stablediffusion_move_summary__07p3s10_detail
LoRA学習動作ありプロンプトまとめ – プロンプト③比重「1.0」詳細

比重「0.9」もそうでしたけど、校章らしきものを付けたAIイラストは皆無でした。プロンプト②と③でここまで再現性に差が出る理由がイマイチ不明です。

331ai_image_stablediffusion_move_summary__08p3s10
LoRA学習動作ありプロンプトまとめ – プロンプト③比重「1.0」まとめ

repeat=10が巻き返しです。プロンプト③の中でかろうじてミノ子の挿絵に使えそうなのが「repeat : 10、epoch : 40」です。それすら「リボン変えたの?」ってレベルですけど。優劣の検証ってよりは、プロンプトの難しさを再確認って感じになってしまいました。

*Paperspaceは誰かの紹介で始めたほうがお得です。詳しくは「PaperspaceでWebUIなStable Diffusion」をご参照ください。以下のリンクから登録すると当サイト経由ということで割引コードが適用されます。

Paperspace
Build and scale ML applications with a cloud platform focused on speed and simplicity.

クレジットカード登録が気乗りしないならVプリカの使用をおすすめします。貧乏性でVプリカの手数料が気になる or ポイ活的に補いたいって人は、ポイントインカムからVプリカに交換して資金を調達する方法もあります。

まとめ

LoRA学習のrepeat=5, 10, 20の動作ありプロンプトについて、これまで検証した結果をまとめました。さらに今回は画像を点数付けして、ちょっとだけ曖昧さを回避しました。その結果やっぱりrepeat=10が優位であることを確認できました。

もう一つ確認できたのはプロンプト③の難しさ。同じ動作ありでも②は比較的高得点で、パーフェクト一歩手前まであったのに、なぜか③はムズイ。いやー、AIイラストって奥が深いですなぁ。

↓repeat=5の個別検証結果です。破綻とはいえ、謎生命体はわりとお気に入り。

↓こちらはrepeat=10と20。赤紫だって、ガチャればわりといける?

↓よし! PixAI.artで遊ぶぞ! Moonbeamに果てしなく期待。

↓この検証の結果は、もちろんPixAI.artで確かめます!

↓ミノ子は飽きた、というサスケの声に応えました。

↓遊ぶって何? もちろんPixAI.artですよ!