PixAIのLoRA学習で画素数検証！高解像3Dキャラはムズい⁉

サスケ

……惨敗？　のような、勝利？　のような、不思議な結果だな

ミノ子

予想外ですね

サスケ

高解像度な3DキャラのLoRA化がムズイのか、ミノ子が術式を間違ったのか。どっちかっていうと後者な気がする

ミノ子

……自分でもそんな気がしてます

要約
はじめに
波乱の高解像度検証
まとめ

要約

PixAI.artのLoRA学習における、元画像画素数の影響を確認します。画素数512x512pxだと再現性高い画像が、1024×1024、2048×2048だと崩壊画像ばかりが生成されました。高解像度3DキャラのLoRA化が難しいのか、設定を間違ったのか。後者な気もします！

はじめに

PixAI.artのLoRA学習の画面には、「画像解像度を1024px以上の場合より良い結果が得られます」と書かれています。そう言われると当然試してみたくなりますよね。

PixAI.artで1024x1024pxのAIイラストをお願いすると、かなりクレジットが必要になります（「Moonbeam」の単一で2,800）。ですけど、VRoid Studioの3Dキャラなら、簡単に画素数の多い画像を出力できます。

ということで3Dキャラ単色無地背景で、元画像画素数が与える影響について調べます！　前回の検証の結果では、単色無地背景だと背景指定が出来ませんでしたが、画素数の影響を先に調べる、って感じなら背景指定は別にいらないしー。

……これがまた、予想外の展開になったのですよ。

↓PixAI.artでのLoRA学習についてはこちらをご参照ください。

↓前回も単色無地背景の方が再現性高かったです。今回はその延長線上！

波乱の高解像度検証

元画像の準備

いつもどおりVRoid Studioで作成したオリジナルの3Dキャラクターを使います。今回は2048x2048pxで撮影し、出力後ペイントツールで512×512と、1024×1024にダウンサイズ。このため構図はすべて同じです。

前回との違いは背景の色です。いつもは同じ単色無地でも微妙に色を変えるのですが、結局背景指定できないなら同じでイイじゃん、的な思考で、全部デフォルトの灰色です。

枚数は30枚でこれまで同様ですが、配分をちょっと変えて、全身4枚、上半身メイン26枚にしました。……前回の昭和ヤンキー漫画風が気になったので、表情がわかりやすい画像を増やし、にこやかな雰囲気多めです。

LoRA学習の条件は前回と全く同じ。モデルは「Anything V5」、LoRAタイプは「アニメキャラ」。トリガーワードは「black short hair, green eyes, white robe, school emblem patch on the chest, bow tie」としました。

モデルはこれまで「迷ったらAnything V5」というガイドに従っていましたが、今回は積極的な意味で「Anything V5」を選びました。3Dキャラの雰囲気にあったモデルが良いと思い、選択肢の中では「Anything V5」が最も近いと感じたからです。

そのほか、気になっていたのですけど、元画像の画素数が違っても、学習コストは同じ25,000でした（2023/9/30確認）。画素数で学習の大変さが変わりそうなもんですけど、このあたり今後調整とかあるんですかね？

まさかの崩壊画像

学習したLoRAファイルを用い、比重「1.0」、プロンプトはトリガーワードのみ、モデル「Anything V5」で検証をおこないます。元画像画素数は色々変えましたけど、生成するAIイラストは512px限定ですよ。

これまではコスト重視の「Moonbeam」でしたけど、今回は「Anything V5」です。ちょっとコストが高いですけど、これまたVRoid Studioキャラの雰囲気に合っていて、学習をおこなったモデルと同一ってことで「Anything V5」を選択。

363ai_image_pixai_lora_pixels_01_0512image01 — 512pxLoRA画像①

363ai_image_pixai_lora_pixels_02_0512image02 — 512pxLoRA画像①

ほい来ましたー！　安定感抜群です。生成モデルを「Anything V5」にしたことで、雰囲気バッチリ。リボンも校章ワッペンも完璧、服装の細部も再現されていてハイパーチェンジ不要なレベルです。

ちなみに今回も「一括（x4）」生成です。残り一枚も悪くなかったんですけど、服が黒だったのでボツ。3/4成功ですから、かなりイイ感じ。

背景を灰色のみにしたり、全身画像と上半身画像の配分を変えたりしたので、ダメな方向に行ったらどうしよう、とか思ったんですけど杞憂でした。512pxでこれですよ？　おすすめの1024pxとかもっとスゴイ？

363ai_image_pixai_lora_pixels_04_1024image01 — 1024pxLoRA画像①

363ai_image_pixai_lora_pixels_05_1024image02 — 1024pxLoRA画像①

……なん……だと？　画像①はアレですかね。トキの流れるような動きをあらわしたシーン？　っていうか基本的に二人いるんですけど、どういうこと？

何か間違ったかと思ってもう一度生成したのですが同じでした。LoRA学習の時点でミスした？　ひょっとしたらそうかも。あるいは1024px以上の高解像度推奨でも、3Dキャラはムズいとか。

二人ってのが気になったので、試しに1024pxで生成をリクエストしてみました。コストは「一括（x4）」で驚異の6,600です。PixAI会員じゃなければ即死でした。

363ai_image_pixai_lora_pixels_10_1024image1024 — 1024pxLora画像1024生成

……おおぅ、流れるような動きが、より滑らかに！　って遊んでる場合じゃないですよね。最もまともな画像でこれです。私の6,600クレジットが無駄に終わりました。

嫌な予感しかしないんですけど、すでにLoRA学習を終えた後なので2048pxも確認します。

363ai_image_pixai_lora_pixels_07_2048image01 — 2048pxLoRA画像①

363ai_image_pixai_lora_pixels_08_2048image02 — 2048pxLoRA画像①

おや？　さっきよりはイイ感じ？　1024pxもそうでしたけど、顔は悪くないですよね。あきらかにミノ子です。ただし体が崩壊。

うすうす感じていたんですけど、ミノ子ってLoRA化しにくいんですかね？　袖口と胸がでっかいのでポーズに制限がある、＆真っ白な服なので手がかりがつかみにくい、みたいな？　マスクなしサスケとか、イリスだったらもっと上手くいくかも。

新しくラノベを書くときには、登場人物のLoRA化しやすさも考えたいと思います。本末転倒ですけど。なるべく体にフィットした服で、胸は大きくし過ぎない、さらに単調な服は避ける、とかすると良さげな予感がします。

頼んだぞ！　DW Pose！

体幹の指示を明確にすると作画崩壊を避けられる、って例がこれまでにもありました。崩壊しがちなニムロデも、「DW Pose」を使えば、それなりに形を保ってくれます。ということで、いざ挑戦！　条件はこれまでと同じ＋「DW Pose」（比重1.0）です。

363ai_image_pixai_lora_pixels_11_DWpose0512 — 元画像

512pxはまあ何とかなります。ワッペンが袖口にありますけど、これくらいならお絵かき修正する気も起きます。他はさっきよりマシ。マシですけど顔以外崩壊は変わりませんでした。体幹とかそういう問題でもなさそうな感じです。

この後さらに悪あがきして、「ご参考までに」を追加したんですけど、目立った効果も得られず断念。

ひょっとしたら背景ありだと結果が違う？　という淡い期待を残した状態で、単色無地背景の画素数検証は終了することとしました。結論、PixAI.artにおける3DキャラのLoRA学習は512pxが最強。ミノ子限定かもしれないですけど、他はムズいっぽいです。

追記（2023/10/1）

気になったのでもうちょっとあがきました。そういえば「DW Pose」以外に崩壊を防ぐ方法として、プロンプトに「girl 1, solo」を追加する、って手がありました。

363ai_image_pixai_lora_pixels_14_1024solo — 1024px「girl 1, solo」追加

363ai_image_pixai_lora_pixels_15_2048solo — 1024px「girl 1, solo」追加

まずは1024pxLoRAでトリガーワード＋「girl 1, solo」として生成してもらいました（左画像）。さっきよりマシになった？　けどやっぱり崩壊画像が多いのですよ。

次に2048pxLoRAでトリガーワード＋「girl 1, solo」として生成してもらいました（真ん中画像）。こちらはさっきもそれほどひどい崩壊はなかったのですが、さらに多少マシになった感じです。

ラスト、諦めの悪い私はトリガーワードの最初に「girl 1, solo」を追加して、2048pxのLoRA学習をお願いしました。それを用いてトリガーワードのみ生成しもらったのが右画像です。これは1/4の奇跡画像で、他は三人組とか基本崩壊画像です。

調べてみると高解像度なLoRAといっても768pxとか1024pxとかっぽくて、それすら難しいみたいです。2048pxはやり過ぎだったか……。諦めが悪いので、また今度背景ありで挑戦しますけどね！

まとめ

PixAI.artのLoRA学習における、元画像画素数の影響を確認しました。画素数512x512pxだと再現性高い画像が、1024×1024、2048×2048だと崩壊画像ばかりが生成されました。高解像度3DキャラのLoRA化が難しいのか、設定を間違ったのか。後者な気もします！

↓モデル「Moonbeam」の絵柄が良さげなんですけど、髪の毛が灰色っぽいです。

↓背景ありだと1024pxでも崩壊なしを確認。……でも絵柄的にイマイチな気がします。

↓今日も楽しく遊ばせていただきました！　……奥深いですなぁ。

↓PixAI.art活用まとめはこちら。LoRAまとめも作ったほうが良い予感です。

↓PixAI版LoRAの実戦投入はまだまだ時間がかかりそうです。

↓単色無地背景AIイラストでも、合成＆修正すれば何とかなる？　と思ってます！

要約