LoRA学習もかなりいいところまで来てる感があるな
そうですね。ここまでくれば、あともうひと踏ん張り。頑張りましょう!
……いや、ここまでくればもうあとはどう転んでもいいかなー、みたいな
ここまでやって、最後投げやり!
要約
繰り返し数10、エポック数24のLoRA学習ファイルについて、検証をおこないます。正直、前回のエポック数40と大差ないんですけど、今回のほうが若干好みだったので、当サイトのミノ子LoRA学習ファイルは繰り返し数10のエポック数24を採用します。
おまけとしてやってみた修正方法がなかなかイイ感じです。ベース画像を用いて、本当に大事なプロンプトとLoRAだけにする。ポイントはここだと思っています。
はじめに
LoRA学習の検証はそろそろ終わりにしたいです。もういいや、飽きた、ってわけでは決してなくて、検証を続けても差が不明確なあたりまでやり切った感があるからです。自己満足ってやつですな。
ってことで今回が最後。前回繰り返し数(repeat)10、エポック数(epoch)40のファイルをPixAI.artにアップしてAIイラストを検証しましたが、なんかぎこちなさが気になった。エポック数を落としたらどうなるのかを確認するのが今回の主旨です。
あとおまけとして、一度出力した画像の修正方法も試してみました。これがなかなか良いんですよ。棚から牡丹餅的な?
↓repeat=10、epoch=40の検証記事。これでも十分だと思ってます。
↓Paperspaceが気になる? ぜひ気になってください!
いざ! 最終決戦!
ぎこちなくないLoRA学習ファイル
これを考えようと思ったら前回も示した以下の表が役に立ちます。
PixAI.artにアップしたのはrepeat=10でstep=12000(画像枚数が30枚だからepoch=40)でした。経験的にrepeatを変えるってよりはepochを変えたほうが良さげな雰囲気。ということで次点のrepeat=10でstep=7200(epoch=24)にしました。
前回同様、どんなキャラクターかってのを示すと、以下みたいな感じです。
VRoid Studioで作成した3Dキャラクターですよ。黒髪ショートカットで、白いローブ的な学生服を着ています。胸のリボンと変な校章ワッペンが再現ムズいです。このあたりの話はLoRA学習の記事を読んでいただけると嬉しいです。
まずは比重を変化
今回もモデルは「Moonbeam」を使用、プロンプトはLoRA+「girl 1, smile」です。これまでの検証風に言うなら、動作なしのプロンプト①ですな。一括(x4)で4枚の画像を生成して良さげな3枚を示しますよ。
やっぱり比重が低いと自然で再現性低い、比重が高いとぎこちなくて再現性高い、って感じがします。トレードオフはしょうがない。それにしたって比重「1.0」は画像2と3がパーフェクトミノ子です。……画像1が面白いことになってますけど。
今回も比重は「0.9」で行ってみましょう!
比重「0.9」でプロンプト①②③
プロンプト②は「girl 1, smile, right hand punch practice. in the mysterious forest」、③は「girl 1, smile, having a drink, in the streets of medieval Europe」です。モデルは「Moonbeam」のまま、比重を「0.9」にしてAIイラスト生成!
再現性はepoch=40に比べると若干低い? プロンプト①は画像1が校章ワッペン怪しいし、画像2は髪型がダメ。②の画像2は服が白じゃない。③はどちらも校章ワッペンをガン無視しています。
再現性はイマイチ劣るepoch=24ですが、ぎこちなさは低減しているような気がします。……まあ、ここまでくると趣味の問題ですよね。
ちょっと判定基準があいまいですけど、当サイトのミノ子LoRA学習ファイルはrepeat=10のepoch=24で決定したいと思います。……1024だなんて良さげな数字だから気に入った、とかそれだけの理由じゃないですよ。
おまけ:修正の工夫
結局プロンプト③でパーフェクトミノ子は未達成です。このままでは悔しい。だったら一回生成した画像をもとに修正したらどうなるのか? やってみました。
具体的には「プロンプト③、画像1」をベース画像にして、プロンプト①で画像生成です。参考画像のStrength(数字が少ないほどベース画像に忠実)を変化させました。
これほどわかりやすい検証が今までにあっただろうか?
「Strength : 0.4」でドリンクが溶け、胸ポケットらしきものが出来始める。「0.5」でドリンクがあらかたなくなり、小さな校章ワッペンが出現。「0.6」ではドリンクが完全になくなり、校章ワッペンが完璧な位置、形で出来上がる。見事なトレードオフです。
……などと面白がってもいられない。これって両立は不可能ってこと? いやいや、諦めてなるものか! プロンプトで重要なのはLoRAと「having a drink」なわけです。その他、女の子が一人とか、中世ヨーロッパとかはベース画像にお任せします。
ついにできました! 黒髪ショートカット、白いローブ、赤いリボン、校章ワッペンのパーフェクトミノ子が、ヨーロッパの街中でジュース持ってます! 校章ワッペンがちょっと怪しいし、中世じゃない気がするけど、小っちゃいことは気にしない!
……これって他のLoRA学習ファイルでも、もちろん可能な修正だよね? ってことで、前回のrepeat=10でepoch=40なファイルで、同じ手法を確認しました。
右手袖口とか、胸のあたりとか微妙だけど、一応できたっぽい。ということでなかなか汎用性ある修正方法なのではないでしょうか。
まとめ
繰り返し数10、エポック数24のLoRA学習ファイルについて、検証をおこないました。正直、前回のエポック数40と大差ないんですけど、今回のほうが若干好みだったので、当サイトのミノ子LoRA学習ファイルは繰り返し数10のエポック数24を採用します。
もうひとつ、おまけとしてやってみた修正方法がなかなかイイ感じです。ベース画像を用いて、本当に大事なプロンプトとLoRAだけにする。ポイントはここだと思っています。……なんか人生訓みたいですね。
↓自作LoRAがあれば、オリキャラをお気に入り画像に寄せられます!
↓今回もお世話になりました!
↓こういう凄そうなのにも挑戦したい。再現性との両立が無理ゲーレベルな気がするけど。
↓……さて、VRoidキャラクターの撮影から始めますかね。
↓キャラクターごとに条件の見直しも必要な予感です。