LoRA学習におけるエポック数と生成AIイラストの関係例を紹介！

サスケ

興味のない人には前回と何が違うのかさっぱりわからないと思う。やってる本人もさっぱりわかりません！

ミノ子

まあそうですよね。数値で評価が出るならともかく、画像で良し悪しを判定ですからね

サスケ

誰か教えて！

ミノ子

考えることを放棄した！

要約
はじめに
懲りずにepoch振りますよ
1. もちろん比重も変化
2. 比重=0.9固定でプロンプト追加
まとめ

要約

学習画像枚数30、繰り返し数10でエポック数を振った場合（最大40）のAIイラスト例を紹介します。

今回も特に意味があるっぽい事はわかっていません。なんですけど、ひょっとしてエポック数が大きければ、あまりプロンプトはいらない？　むしろ邪魔？　的な疑惑が出てきたので、手がかりかもしれないことを得られたのは前進かもです。

はじめに

前回の続編的な感じです。ということで以下おさらい。

LoRA学習において大事なパラメーターは学習画像枚数（image）、繰り返し数（repeat）×エポック数（epoch）みたいです。imageは準備した画像の枚数、repeatは同じ画像を学習する回数、epochは学習全体の回数っぽいです。

ステップ数（step）との関係は image × repeat × epoch = step だとか。もちろんstepが大きいほど時間がかかります。なんとなくstepは大きければ大きいほど良さそうな気がしますが、ちょうどいい値を超えると勉強し過ぎの過学習になるそうです。

stepは4000～6000にしろという話や、5000～10000が良いという意見やらいろいろあります。まだよくわかってない、というのもあるでしょうが、たぶん学習内容によっても変わってくるのでしょう。

今回は学習画像枚数30枚、repeatを10にして、epochの違い（最大40）で生成されるAIイラストがどのように変わるか、確認します。

相変わらず違いがあるんだかないんだか、よくわからないんですけどね。例によって例のごとく、LoRA学習の参考にしていただければ幸いです。

↓Paperspaceのまとめ記事作りました。ほとんど自作LoRA学習まとめですけど。

↓前回のrepeat20検証結果ですよ。

懲りずにepoch振りますよ

もちろん比重も変化

噂に高いkohya版LoRAを使用。repeat=10で、epoch=8, 16, 24, 32, 40の結果を示します。image=30だから、それぞれstep=2400, 4800, 7200, 9600, 12000ですよ。諸説あるけどepoch=8は学習不足、40は過学習の予定です。

モデルは「SukiyakiMix-v1.0-fp16.safetensors」で、VAEは「orangemix.vae.pt」。その他は以下の方法でPaperspaceにStable Diffusionを導入したデフォルトの状態です。

使うプロンプトは「girl 1, smile」＋LoRAのみ、ネガティブプロンプトは「worst quality, low quality, bad anatomy, nsfw, text, signature, watermark, username, missing limb, bad hands, missing fingers, extra digit, fewer digits」です。

326ai_image_stablediffusion_repeat10_01e08s06 — epoch : 8、比重 : 0.6

326ai_image_stablediffusion_repeat10_02e08s08 — epoch : 8、比重 : 0.6

これはいきなり期待が持てる結果です。特に「epoch : 24、比重 : 1.0」がヤバい。リボンの色、校章ワッペンの色が完璧。同じ理由で「epoch : 40、比重 : 1.0」も中々。髪型がちょっとイマイチだけど。「epoch : 32、比重 : 1.0」はワッペンないけどほぼ完ぺきなミノ子。

黒髪ショートカットを指定せずとも、このクオリティーです。ってことは指定したらもっとイイ感じ？　さらにプロンプト追加にも耐えられる？　……そう考えていた時もありました。

比重=0.9固定でプロンプト追加

前回と同じように、良さげな雰囲気ただよう比重=0.9に固定して、プロンプト追加で試してみました。

プロンプト①は「girl 1, smile, black short hair」、②は「girl 1, smile, black short hair, right hand punch practice. in the mysterious forest」、③は「girl 1, smile, black short hair, having a drink, in the streets of medieval Europe」です。