PixAIのLoRA学習で背景あり画素数検証！背景で絵柄が変化！

サスケ

うーん……、悪くないんだ。むしろ順調と言っていい。なんだけど、ちょっと……

ミノ子

背景無しの時みたいな期待感がないですね。ここ止まりなのかな？　的な

サスケ

3Dキャラに寄せるだけでなく、画風をもっと好みにしないと、先が見えなくてやる気が出ないのかもな。ポーズ付けると崩壊するし

ミノ子

それは言わないでください……

要約
はじめに
崩壊は止めた！　……なんですけど
まとめ

要約

PixAI.artのLoRA学習における画素数の影響を、背景あり元画像で検証します。背景がなしの場合崩壊気味だった1024pxも2048pxも、背景があれば崩壊しにくいことを確認。なんですけど、背景に流されて魅力に欠ける気がしてきました（個人の感想です）。

はじめに

PixAI.artのLoRA学習をラノベ挿絵に用いるべく、検証を進めています。VRoid Studioで作った3Dキャラクラーを元画像にできれば、安定して再現性の高いAIイラストを生成できるはず、なんて夢を見ています。

前回は背景なし（灰色単色無地背景）の元画像でLoRA学習をおこないました。512px元画像は良い感じだったのですが、1024pxと2048pxは作画崩壊が発生。そもそも背景なしだとAIコラージュ必須になってしまうので、今回は背景ありに挑戦します！

……LoRA学習に加えて、高解像度背景の生成。クレジット消費がハンパないですよ！

↓PixAI.artでのLoRA学習方法についてはこちらをご参照ください。

↓前回の背景なし編。キャラクター的にはこっちの方が好みです。

崩壊は止めた！　……なんですけど

LoRA学習

今回は背景あり、ということでまずは背景画像の準備です。2048pxの背景画像を「Anything V5」でお願いする場合、どれくらいクレジットが必要なんですかね？

まず1024pxの「一括(x4)」生成が6,600、前回同様26枚用意するには最低46,200かかります。そこから2048pxへの高精細化が1枚14,000、26枚で364,000ですな。ぜんぶひっくるめて410,200クレジット、……無理です！

大人しく諦めて1024pxに妥協。今回は整合性を考えてなるべく3Dキャラ寄せの雰囲気にしたかったので「Anything V5」、プロンプトは「forest landscpa」とか「street corner landscape」とか単純なのにしました。

生成後ペイントツールで1024⇒2048pxに単純引き延ばし。これを背景画像にしてVRoid Studioで2048px撮影です。背景なし（灰色単色無地背景）の2048px画像4枚と合わせて、計30枚の元画像を得ました。

元画像は前回同様、2048pxのままと、512px、1024pxにペイントツールでダウンサイズしたものを準備。正直1024pxはまだしも、2048pxってどうよ？　とか思いましたけど、ひょっとしたら背景ありならいけるかも……、的な夢を見てしまうのですよ。

LoRA学習の条件は前回と全く同じ。モデルは「Anything V5」、LoRAタイプは「アニメキャラ」。トリガーワードは「black short hair, green eyes, white robe, school emblem patch on the chest, bow tie」としました。

背景画像とLoRA学習3つ合わせて、全部で12万クレジットちょっとかかりました。怖ろしい……。

リベンジ完了！

学習したLoRAの成果や如何に？　まずはトリガーワードのみ、モデル「Anything V5」で、基本的な性能確認ですよ。

364ai_image_pixai_lora_pixels_back_01lora0512 — 512pxLoRA画像

364ai_image_pixai_lora_pixels_back_02lora1024 — 512pxLoRA画像

ハイ来ましたー！　背景なしでは崩壊していた1024pxと2048pxでも、背景ありならば崩壊は起こりにくいみたいです。「一括（x4）」生成で傾向を見てますから、たまたまガチャで当たりを引いた可能性は低いです。

気になることはふたつ。まず、絵柄的には背景なしのほうが好みでした。今回のはちょっと背景に引っ張られた感があります。あと、1024pxのみ黒服多めで崩れがちでした。微妙に画素数で違いがあるみたいです。

これで背景あり生成が可能なことはわかりました。では実際に変えられるのか？　ってことで、まずはトリガーワード＋「at street corner」に変更して、他はさっきと同条件でリクエストしました。

364ai_image_pixai_lora_pixels_back_04street0512 — 512pxLoRA街角

364ai_image_pixai_lora_pixels_back_05street1024 — 512pxLoRA街角

これくらいだったらまだ大丈夫ですな。元画像背景の中にも「street corner landscape」はありましたし。それにしてもやっぱり1024pxが微妙な雰囲気です。平均点で見ても512pxが最も安定している感じ。

じゃあ、元画像背景にない状況だったらどうなるでしょうか。これを確認するため、元画像に含まれていない「洞窟」で確認します。トリガーワード＋「in cave」でAIイラスト生成をお願いしました。

364ai_image_pixai_lora_pixels_back_07cave0512 — 512pxLoRA洞窟

364ai_image_pixai_lora_pixels_back_08cave1024 — 512pxLoRA洞窟

これも問題なくクリアーです。ただし、いくつかの画像では、ミノ子の制服（長い白ローブ）が腰までのジャケットになってました。だんだん厳しくなってきた？

ならば背景変更ラストは同じく元画像にない「教室」です。しかも今度は「勉強している」という指示も出しますよ。トリガーワード＋「studying in the classroom」でお願いします！

364ai_image_pixai_lora_pixels_back_10class0512 — 512pxLoRA教室

364ai_image_pixai_lora_pixels_back_11class1024 — 512pxLoRA教室

これも思ったよりイイ感じでした。勉強しているかどうかは怪しいですが、教室っぽい部屋にいることは確実。でもやっぱり難しくなってきたみたいで、崩壊画像もチラホラ。1024pxは黒服率多めです。

前回の検証では1024px、2048px元画像のLoRAは崩壊気味でしたけど、今回の検証で背景ありなら崩壊をまぬがれることがわかりました！　当然ですけど、背景も試した感じでは自由に指定できました。

ならばポーズだ！

素の状態ですと再現性の高いAIイラストを生成してもらえることはわかりました。となると次はポーズですよね。当サイトの挿絵の作り方は元画像のポーズをLoRAで再現するので、これができないと困るのですよ。

まずは比較的簡単なポーズを「DW Pose」（比重1.0）でリクエストします。プロンプトはトリガーワードのみで、その他の条件はこれまでと同じですよ。

364ai_image_pixai_lora_pixels_back_13glass0512 — 元画像

これはまあまあ？　512pxが着崩していたり、1024pxが怪しかったり、2048pxが肩ワッペンだったりですけど、いちおうそれっぽいポーズになってます。AIコラとか、お絵描き修正で何とかしようかなー、って思えるレベル。

それでは次にもっと難しいポーズ、髪の毛かきあげの再現に挑戦。他は同じでトリガーワードのみですよ。でも考えてみたら、このポーズって3Dキャラでもできないのですよ。ミノ子は袖口がデカいから顔が隠れます。

364ai_image_pixai_lora_pixels_back_16hair0512 — 元画像

……うーん、ムズイ。そもそも元画像の右腕が認識されたりされなかったりなので、なお難しいです。これまで優秀だった512pxが破綻。一見良さげな2048pxもなんか頭おっきいです。1024pxがいちばんまとも、という予想外の展開。

やっぱりポーズ指定は難しいっぽいです。実はその辺りは元画像枚数に期待しています。今は30枚ですけど、100枚に増やしたらどうなるか？　その場合ミノ子衣装はどうなのかなーって問題もあります。検証用に動きやすい服を準備しほうが良いかも。

最大の問題は絵柄ですよね。背景なしのほうが好み。もっと言うと今現在の挿絵で使っている、アニメ感抑え気味のほうが好きだったりします。どうやらまだまだ検証が必要みたいです。

まとめ

PixAI.artのLoRA学習における画素数の影響を、背景あり元画像で検証しました。背景なしの場合崩壊気味だった1024pxも2048pxも、背景があれば崩壊しにくいことを確認。なんですけど、背景に流されて魅力に欠ける気がしてきました（個人の感想です）。

↓学習画像背景の影響でキャラクターの雰囲気が変わるっぽいですよ。

↓こんな高コスト検証ができるのもPixAI会員制度のお陰です！

↓PixAI.artの全体的な使い方に関しては、こちらをどうぞ！＿

↓PixAI版LoRAの実戦投入目指して頑張ります！

要約

はじめに

崩壊は止めた！ ……なんですけど

LoRA学習

リベンジ完了！

ならばポーズだ！

まとめ

崩壊は止めた！　……なんですけど