LoRA学習repeat10,20再検証編

326ai_image_stablediffusion_repeat1020again_00eyecatchAI画像生成
広告
サスケ
サスケ

とりあえず呪文に「黒髪」って入れないと、服も黒っぽいものが少なくなることがわかった

ミノ子
ミノ子

……このところ呪文の練習ばっかりですね

サスケ
サスケ

なんだけど、他の動作と組み合わせようとすると、途端に難しくなる。どうしたものか……

ミノ子
ミノ子

……サスケさんが珍しく真面目なことしか言わない。もともと頭のおかしな人だけど、もっとおかしくなってしまった

要約

LoRA学習のrepeat=10と20について、再現性を低くしていると思わるプロンプトを抜いて検証を行います。前回、前々回の検証で用いた「black short hair」を抜くことで、洋服が黒に引っ張られることのない、より正しい(と思う)結果が得られます。

はじめに

LoRA学習の検証をしていて、「black short hair」とプロンプトに入れて生成した画像が、全体的に黒っぽいことに気付きました。学習画像は白いローブを着ているのに、黒い服が多い。……プロンプトに引っ張られている? と思ったのが前回です。

ということでこれまでおこなったrepeat10と20のプロンプト追加検証について、「black short hair」を抜いてAIイラストを生成してもらいました。

↓Paperspaceのまとめ記事作りました。ほとんど自作LoRA学習まとめですけど。

↓こちらはrepeat20検証。やっぱり「black short hair」で黒服が多めになってます。

「black short hair」悪者説

ことの発端

LoRA学習ができるようになった当初、髪色、髪型を安定させるために「black short hair」といれて上手くいった経緯があります。

このとき服装も安定させるため「white robe」も入れてみたりしました。でもこちらはキャラクターの特徴的なリボンや校章ワッペンまで消える傾向があったので、「white robe」はなし、「black short hair」のみ追加することとしていました。

当初のepoch=7に比べると、最近はepoch=20とか40とか、かなり大きな値も検証していて、「black short hair」なしでもかなりイイ感じにAIイラスト生成してもらえています。

だとすれば、epochが大きい場合は余計なプロンプトは不要? 黒服がやたら多いのは「black」のせい? というのが「black short hair」悪者説です。 

repeat=10で再検証

噂に高いkohya版LoRAを使用。repeat=10で、epoch=8, 16, 24, 32, 40の結果を示します。image=30だから、それぞれstep=2400, 4800, 7200, 9600, 12000ですよ。諸説あるけどepoch=8は学習不足、40は過学習の予定です。

モデルは「SukiyakiMix-v1.0-fp16.safetensors」で、VAEは「orangemix.vae.pt」。その他は以下の方法でPaperspaceにStable Diffusionを導入したデフォルトの状態です。

プロンプト①は「girl 1, smile」、②は「girl 1, smile, right hand punch practice. in the mysterious forest」、③は「girl 1, smile, having a drink, in the streets of medieval Europe」です。比重は「0.9」固定です。

ネガティブプロンプトは「worst quality, low quality, bad anatomy, nsfw, text, signature, watermark, username, missing limb, bad hands, missing fingers, extra digit, fewer digits」です。

やりましたよ。やっぱり「black short hair」をなくしたことで、黒服率が格段に下がりました。こうなってくると比重が「1.0」の②と③も気になってきますが、それはまた今度、ってことで。

面白いことに①はリボン率が低くて、校章ワッペン率が高い。②は逆にリボン率が高くて、校章ワッペン率が低い。なんででしょうね? 偶然? ③はどっちもないのが多くて、この中では一番再現が難しいプロンプトみたいです。

repeat=20で再検証

お次はrepeat=20で、epoch=4, 8, 12, 16, 20の結果を示します。image=30だから、step=2400, 4800, 7200, 9600, 12000は同じですよ。

こちらも黒服率はぐっと下がりました。③が難しいらしい、っての同じですな。

問題は①ですよね。リボンも校章ワッペンもないものが多い。②を見てもリボン率が下がっている気がします。「epoch : 16、プロンプト②」なんかはリボンと校章ワッペンが微妙に共存していますが、やっぱり再現性は低めな感じです。

……っていうか、こうして見るとやっぱり比重「1.0」が気になってきました。そのうち試してみようかと思ってます。

*Paperspaceは誰かの紹介で始めたほうがお得です。詳しくは「PaperspaceでWebUIなStable Diffusion」をご参照ください。以下のリンクから登録すると当サイト経由ということで割引コードが適用されます。

Paperspace
Build and scale ML applications with a cloud platform focused on speed and simplicity.

クレジットカード登録が気乗りしないならVプリカの使用をおすすめします。貧乏性でVプリカの手数料が気になる or ポイ活的に補いたいって人は、ポイントインカムからVプリカに交換して資金を調達する方法もあります。

まとめ

LoRA学習のrepeat=10と20について、再現性を低くしていると思わるプロンプトを抜いて検証を行いました。前回、前々回の検証で用いた「black short hair」を抜くことで、洋服が黒に引っ張られることのない、より正しい(と思う)結果が得られました。

こうなってくると比重が「1.0」の状態が気になります。それで〇×表でも作ればもうちょっと傾向がわかる? でもそのまえにrepeat=5ですかね。パラメーターは三点くらい振らないと気が済まないタチなのですよ。

↓repeat10検証の記事です。良さげな画像はだいたい「black short hair」なしです。

↓比重の検証はPixAI.artでやった方がいいかもしれないと思ってます。

↓そろそろ大きなアップデートがあるらしいので、そちらも気になっています。

↓目指せ! 3DキャラクターとAIイラストの共闘!

↓比重「1.0」は赤紫多めでした。やっぱり「0.9」が無難?