PixAIのLoRA学習で背景ありなし比率を検証！絵柄を制御！

サスケ

やったー！　ねんがんのほぼ3Dキャラミノ子をLoRA生成したぞー！

ミノ子

殺してでもうばいとる！

サスケ

な、なにをする、きさまー！

ミノ子

たしかにスゴイかもですけど、目指すは3DキャラっぽいAIイラストじゃないですよね。3Dキャラそのものなら合成すればいいわけですし

要約
はじめに
爆誕！　ほぼ3Dミノ子LoRA！
まとめ

要約

PixAI.artのLoRA学習で、学習画像の背景ありなし比率が結果に与える影響について検証します。ある程度背景あり元画像が混ざっていれば、LoRA生成時に背景指定することができ、画像崩壊を防ぎつつ、絵柄を3Dキャラに寄せられることがわかりました。

はじめに

相変わらずVRoid Studioで作成した3DキャラクターのLoRA学習に挑戦しています。これまで元画像として背景ありのみ、なしのみ、背景の絵柄違いなど色々試してきました。絵柄的には背景なしのみが好みですけど、それだと背景なしAIイラストしかできません。

どうやら3Dキャラの絵柄が背景に引っ張られるっぽいです。目指すは3Dキャラそのものから、3Dキャラっぽさを取り払ったAIイラスト。……ムズすぎ？　言葉にするのは難しいんですけど、背景と違和感ない感じでってことで。

だったら背景ありなしの比率を変えて、絵柄が好みで、かつLoRA生成時に背景を指定できるイイ感じポイントを探せばよくね？　ってことで、今回は学習画像の比率を変えて検証します。

……だんだん自分でも何をやっているのかわからなくなってきましたが、効果は抜群です！

↓PixAI.artのLoRA学習については以下をご参照ください。

↓前回の背景違い編はこちらです。

爆誕！　ほぼ3Dミノ子LoRA！

LoRA学習

今回の検証はクレジット的に優しいです。以前おこなった背景なし画素数検証と、背景あり画素数検証の学習画像を適度に比率変えるだけですから。

使うのは両方512px画像です。背景ありなし比率で0:30と26:4の結果は上記の記事にあります。次に見ておきたいのは、やっぱりちょうど中間の15:15。そのあいだを取ることとして7:23と20:10を選びました。……歪だけどしょうがないです。

学習に使った背景画像は「Anything V5」でプロンプトは単純な場所指定ですけど、サイズが1024pxなので特殊なんですよね。このあたりの検証はまたおいおい、……気が向いたら確認します。

LoRA学習の条件はいつもと同じ。モデルは「Anything V5」、LoRAタイプは「アニメキャラ」。トリガーワードは「black short hair, green eyes, white robe, school emblem patch on the chest, bow tie」としました。

LoRA学習が3つで合計75,000クレジット。PixAI会員の資格を失った身にはなかなかつらいものがありますが、気になっちゃんだからしょうがないです。

ほぼパーフェクト

まずはオーソドックスにトリガーワードのみのLoRA生成（比重1.0）。以前の画像も並べます。

363ai_image_pixai_lora_pixels_02_0512image02 — 比率0:30

367ai_image_pixai_lora_backratio_03b07m23_trigger — 比率0:30

比率0:30に近づくほど絵柄的に好みになることを予想していたのですが、7:23は崩壊気味。ちょっと危うい感じがしています。15:15、20:10になるとやっぱり背景に引きずられている感がありイマイチです。

お次は簡単なプロンプト追加。トリガーワード＋「in bar」です。

367ai_image_pixai_lora_backratio_05b15m15_bar — 比率7:23

どうやら比率7:23は失敗みたいです。残りどちらかと言えば15:15のほうが好みです。20:10は手が崩れているのと、絵柄がよりアニメっぽい感じ。この際リボンがでっかいことには目をつぶります。

最後は場所を変えてさらにプロンプトを複雑にします。トリガーワード＋「studying in the classroom」、果たしてどうなるか？

367ai_image_pixai_lora_backratio_09b07m23_class — 比率7:23

367ai_image_pixai_lora_backratio_08b15m15_class — 比率7:23

あばばばば……、比率20:10がVRoid Studioの3Dキャラそのものです。合成じゃないよAIイラストだよ、ってのが手で分かるという、すごいんだかすごくないんだかわからない画像。3Dキャラっぽさを消したいと思っていたのに、逆にとんでもないのが出来ました。

今回は比率15:15が苦戦。黒服率が高く、最も良い感じのがこれでした。でも顔はわりとミノ子な気がする。20:10には負けるけど。7:23は安定の微妙さです。

ポーズはやっぱりむずかった

最後は「DW Pose」を使ったポーズの再現です。これが難しいんですけど、ポーズ指定なしでは当サイトのラノベ挿絵は成り立たないのですよ。

いつもの元画像を「DW Pose」で認識してもらって、比重「1.0」のLoRA生成。プロンプトはトリガーワードのみ、他条件はこれまでと同じです。

367ai_image_pixai_lora_backratio_12b07m23_pose — 元画像

やっぱりポーズ指定は難しいです。それでもまあそこそこ？　比率7:23は構図的に健闘していますけど顔が微妙。15:15と20:10はどちらも微妙って感じのAIイラストになってしまい、ドローでしょうか。

今回の検証で分かったのは、背景ありなし比率15:15くらいあれば、画像崩壊を起こすことなく背景指定は可能、絵柄にあらわれる背景の影響をちょっとはコントロールできるかも、ってことです。

こうなってくると気になるのは、前回絵柄的には良いんだけど髪の毛が灰色っぽくなる、ってことで選から漏れた「Moonbeam」ですよね。背景ありなし比率を変えて、3Dキャラに寄せれば髪の毛が黒くなる？

などと余計なことを色々考えてしまいますが、適度に切り上げてPixAIのLoRAを早く実戦に投入したい今日この頃です。

まとめ

PixAI.artのLoRA学習で、学習画像の背景ありなし比率が結果に与える影響について検証しました。ある程度背景あり元画像が混ざっていれば、LoRA生成時に背景指定することができ、画像崩壊を防ぎつつ、絵柄を3Dキャラに寄せられることがわかりました。

↓「Moonbeam」を使うことでアニメっぽさを抑え、比率制御で黒髪を実現！

↓PixAI.artのLoRA学習が使えれば、新キャラ登場にも即対応可能です。

↓PixAI.artの基本的な使い方はこちら。しばらく見ないと進化しているから怖い。

↓応用編にはAI4コマもあります。LoRAを使いこなせばストーリー漫画も作れますよね。

↓LoRA生成も実際に使うと勝手がわかってきます。早期投入を目指したい！

要約

はじめに

爆誕！ ほぼ3Dミノ子LoRA！

LoRA学習

ほぼパーフェクト

ポーズはやっぱりむずかった

まとめ

爆誕！　ほぼ3Dミノ子LoRA！