PixAI神LoRA画素数背景編

364ai_image_pixai_lora_pixels_back_eyecatchAI画像生成
広告
サスケ
サスケ

うーん……、悪くないんだ。むしろ順調と言っていい。なんだけど、ちょっと……

ミノ子
ミノ子

背景無しの時みたいな期待感がないですね。ここ止まりなのかな? 的な

サスケ
サスケ

3Dキャラに寄せるだけでなく、画風をもっと好みにしないと、先が見えなくてやる気が出ないのかもな。ポーズ付けると崩壊するし

ミノ子
ミノ子

それは言わないでください……

要約

PixAI.artのLoRA学習における画素数の影響を、背景あり元画像で検証します。背景がなしの場合崩壊気味だった1024pxも2048pxも、背景があれば崩壊しにくいことを確認。なんですけど、背景に流されて魅力に欠ける気がしてきました(個人の感想です)。

はじめに

PixAI.artのLoRA学習をラノベ挿絵に用いるべく、検証を進めています。VRoid Studioで作った3Dキャラクラーを元画像にできれば、安定して再現性の高いAIイラストを生成できるはず、なんて夢を見ています。

前回は背景なし(灰色単色無地背景)の元画像でLoRA学習をおこないました。512px元画像は良い感じだったのですが、1024pxと2048pxは作画崩壊が発生。そもそも背景なしだとAIコラージュ必須になってしまうので、今回は背景ありに挑戦します!

……LoRA学習に加えて、高解像度背景の生成。クレジット消費がハンパないですよ!

↓PixAI.artでのLoRA学習方法についてはこちらをご参照ください。

↓前回の背景なし編。キャラクター的にはこっちの方が好みです。

崩壊は止めた! ……なんですけど

LoRA学習

今回は背景あり、ということでまずは背景画像の準備です。2048pxの背景画像を「Anything V5」でお願いする場合、どれくらいクレジットが必要なんですかね?

まず1024pxの「一括(x4)」生成が6,600、前回同様26枚用意するには最低46,200かかります。そこから2048pxへの高精細化が1枚14,000、26枚で364,000ですな。ぜんぶひっくるめて410,200クレジット、……無理です!

大人しく諦めて1024pxに妥協。今回は整合性を考えてなるべく3Dキャラ寄せの雰囲気にしたかったので「Anything V5」、プロンプトは「forest landscpa」とか「street corner landscape」とか単純なのにしました。

生成後ペイントツールで1024⇒2048pxに単純引き延ばし。これを背景画像にしてVRoid Studioで2048px撮影です。背景なし(灰色単色無地背景)の2048px画像4枚と合わせて、計30枚の元画像を得ました。

元画像は前回同様、2048pxのままと、512px、1024pxにペイントツールでダウンサイズしたものを準備。正直1024pxはまだしも、2048pxってどうよ? とか思いましたけど、ひょっとしたら背景ありならいけるかも……、的な夢を見てしまうのですよ。

LoRA学習の条件は前回と全く同じ。モデルは「Anything V5」、LoRAタイプは「アニメキャラ」。トリガーワードは「black short hair, green eyes, white robe, school emblem patch on the chest, bow tie」としました。

背景画像とLoRA学習3つ合わせて、全部で12万クレジットちょっとかかりました。怖ろしい……。

リベンジ完了!

学習したLoRAの成果や如何に? まずはトリガーワードのみ、モデル「Anything V5」で、基本的な性能確認ですよ。

ハイ来ましたー! 背景なしでは崩壊していた1024pxと2048pxでも、背景ありならば崩壊は起こりにくいみたいです。「一括(x4)」生成で傾向を見てますから、たまたまガチャで当たりを引いた可能性は低いです。

気になることはふたつ。まず、絵柄的には背景なしのほうが好みでした。今回のはちょっと背景に引っ張られた感があります。あと、1024pxのみ黒服多めで崩れがちでした。微妙に画素数で違いがあるみたいです。

これで背景あり生成が可能なことはわかりました。では実際に変えられるのか? ってことで、まずはトリガーワード+「at street corner」に変更して、他はさっきと同条件でリクエストしました。

これくらいだったらまだ大丈夫ですな。元画像背景の中にも「street corner landscape」はありましたし。それにしてもやっぱり1024pxが微妙な雰囲気です。平均点で見ても512pxが最も安定している感じ。

じゃあ、元画像背景にない状況だったらどうなるでしょうか。これを確認するため、元画像に含まれていない「洞窟」で確認します。トリガーワード+「in cave」でAIイラスト生成をお願いしました。

これも問題なくクリアーです。ただし、いくつかの画像では、ミノ子の制服(長い白ローブ)が腰までのジャケットになってました。だんだん厳しくなってきた?

ならば背景変更ラストは同じく元画像にない「教室」です。しかも今度は「勉強している」という指示も出しますよ。トリガーワード+「studying in the classroom」でお願いします!

これも思ったよりイイ感じでした。勉強しているかどうかは怪しいですが、教室っぽい部屋にいることは確実。でもやっぱり難しくなってきたみたいで、崩壊画像もチラホラ。1024pxは黒服率多めです。

前回の検証では1024px、2048px元画像のLoRAは崩壊気味でしたけど、今回の検証で背景ありなら崩壊をまぬがれることがわかりました! 当然ですけど、背景も試した感じでは自由に指定できました。

ならばポーズだ!

素の状態ですと再現性の高いAIイラストを生成してもらえることはわかりました。となると次はポーズですよね。当サイトの挿絵の作り方は元画像のポーズをLoRAで再現するので、これができないと困るのですよ。

まずは比較的簡単なポーズを「DW Pose」(比重1.0)でリクエストします。プロンプトはトリガーワードのみで、その他の条件はこれまでと同じですよ。

これはまあまあ? 512pxが着崩していたり、1024pxが怪しかったり、2048pxが肩ワッペンだったりですけど、いちおうそれっぽいポーズになってます。AIコラとか、お絵描き修正で何とかしようかなー、って思えるレベル。

それでは次にもっと難しいポーズ、髪の毛かきあげの再現に挑戦。他は同じでトリガーワードのみですよ。でも考えてみたら、このポーズって3Dキャラでもできないのですよ。ミノ子は袖口がデカいから顔が隠れます。

……うーん、ムズイ。そもそも元画像の右腕が認識されたりされなかったりなので、なお難しいです。これまで優秀だった512pxが破綻。一見良さげな2048pxもなんか頭おっきいです。1024pxがいちばんまとも、という予想外の展開。

やっぱりポーズ指定は難しいっぽいです。実はその辺りは元画像枚数に期待しています。今は30枚ですけど、100枚に増やしたらどうなるか? その場合ミノ子衣装はどうなのかなーって問題もあります。検証用に動きやすい服を準備しほうが良いかも。

最大の問題は絵柄ですよね。背景なしのほうが好み。もっと言うと今現在の挿絵で使っている、アニメ感抑え気味のほうが好きだったりします。どうやらまだまだ検証が必要みたいです。

まとめ

PixAI.artのLoRA学習における画素数の影響を、背景あり元画像で検証しました。背景なしの場合崩壊気味だった1024pxも2048pxも、背景があれば崩壊しにくいことを確認。なんですけど、背景に流されて魅力に欠ける気がしてきました(個人の感想です)。

↓学習画像背景の影響でキャラクターの雰囲気が変わるっぽいですよ。

↓こんな高コスト検証ができるのもPixAI会員制度のお陰です!

↓PixAI.artの全体的な使い方に関しては、こちらをどうぞ!_

↓PixAI版LoRAの実戦投入目指して頑張ります!