……惨敗? のような、勝利? のような、不思議な結果だな
予想外ですね
高解像度な3DキャラのLoRA化がムズイのか、ミノ子が術式を間違ったのか。どっちかっていうと後者な気がする
……自分でもそんな気がしてます
要約
PixAI.artのLoRA学習における、元画像画素数の影響を確認します。画素数512x512pxだと再現性高い画像が、1024×1024、2048×2048だと崩壊画像ばかりが生成されました。高解像度3DキャラのLoRA化が難しいのか、設定を間違ったのか。後者な気もします!
はじめに
PixAI.artのLoRA学習の画面には、「画像解像度を1024px以上の場合より良い結果が得られます」と書かれています。そう言われると当然試してみたくなりますよね。
PixAI.artで1024x1024pxのAIイラストをお願いすると、かなりクレジットが必要になります(「Moonbeam」の単一で2,800)。ですけど、VRoid Studioの3Dキャラなら、簡単に画素数の多い画像を出力できます。
ということで3Dキャラ単色無地背景で、元画像画素数が与える影響について調べます! 前回の検証の結果では、単色無地背景だと背景指定が出来ませんでしたが、画素数の影響を先に調べる、って感じなら背景指定は別にいらないしー。
……これがまた、予想外の展開になったのですよ。
↓PixAI.artでのLoRA学習についてはこちらをご参照ください。
↓前回も単色無地背景の方が再現性高かったです。今回はその延長線上!
波乱の高解像度検証
元画像の準備
いつもどおりVRoid Studioで作成したオリジナルの3Dキャラクターを使います。今回は2048x2048pxで撮影し、出力後ペイントツールで512×512と、1024×1024にダウンサイズ。このため構図はすべて同じです。
前回との違いは背景の色です。いつもは同じ単色無地でも微妙に色を変えるのですが、結局背景指定できないなら同じでイイじゃん、的な思考で、全部デフォルトの灰色です。
枚数は30枚でこれまで同様ですが、配分をちょっと変えて、全身4枚、上半身メイン26枚にしました。……前回の昭和ヤンキー漫画風が気になったので、表情がわかりやすい画像を増やし、にこやかな雰囲気多めです。
LoRA学習の条件は前回と全く同じ。モデルは「Anything V5」、LoRAタイプは「アニメキャラ」。トリガーワードは「black short hair, green eyes, white robe, school emblem patch on the chest, bow tie」としました。
モデルはこれまで「迷ったらAnything V5」というガイドに従っていましたが、今回は積極的な意味で「Anything V5」を選びました。3Dキャラの雰囲気にあったモデルが良いと思い、選択肢の中では「Anything V5」が最も近いと感じたからです。
そのほか、気になっていたのですけど、元画像の画素数が違っても、学習コストは同じ25,000でした(2023/9/30確認)。画素数で学習の大変さが変わりそうなもんですけど、このあたり今後調整とかあるんですかね?
まさかの崩壊画像
学習したLoRAファイルを用い、比重「1.0」、プロンプトはトリガーワードのみ、モデル「Anything V5」で検証をおこないます。元画像画素数は色々変えましたけど、生成するAIイラストは512px限定ですよ。
これまではコスト重視の「Moonbeam」でしたけど、今回は「Anything V5」です。ちょっとコストが高いですけど、これまたVRoid Studioキャラの雰囲気に合っていて、学習をおこなったモデルと同一ってことで「Anything V5」を選択。
ほい来ましたー! 安定感抜群です。生成モデルを「Anything V5」にしたことで、雰囲気バッチリ。リボンも校章ワッペンも完璧、服装の細部も再現されていてハイパーチェンジ不要なレベルです。
ちなみに今回も「一括(x4)」生成です。残り一枚も悪くなかったんですけど、服が黒だったのでボツ。3/4成功ですから、かなりイイ感じ。
背景を灰色のみにしたり、全身画像と上半身画像の配分を変えたりしたので、ダメな方向に行ったらどうしよう、とか思ったんですけど杞憂でした。512pxでこれですよ? おすすめの1024pxとかもっとスゴイ?
……なん……だと? 画像①はアレですかね。トキの流れるような動きをあらわしたシーン? っていうか基本的に二人いるんですけど、どういうこと?
何か間違ったかと思ってもう一度生成したのですが同じでした。LoRA学習の時点でミスした? ひょっとしたらそうかも。あるいは1024px以上の高解像度推奨でも、3Dキャラはムズいとか。
二人ってのが気になったので、試しに1024pxで生成をリクエストしてみました。コストは「一括(x4)」で驚異の6,600です。PixAI会員じゃなければ即死でした。
……おおぅ、流れるような動きが、より滑らかに! って遊んでる場合じゃないですよね。最もまともな画像でこれです。私の6,600クレジットが無駄に終わりました。
嫌な予感しかしないんですけど、すでにLoRA学習を終えた後なので2048pxも確認します。
おや? さっきよりはイイ感じ? 1024pxもそうでしたけど、顔は悪くないですよね。あきらかにミノ子です。ただし体が崩壊。
うすうす感じていたんですけど、ミノ子ってLoRA化しにくいんですかね? 袖口と胸がでっかいのでポーズに制限がある、&真っ白な服なので手がかりがつかみにくい、みたいな? マスクなしサスケとか、イリスだったらもっと上手くいくかも。
新しくラノベを書くときには、登場人物のLoRA化しやすさも考えたいと思います。本末転倒ですけど。なるべく体にフィットした服で、胸は大きくし過ぎない、さらに単調な服は避ける、とかすると良さげな予感がします。
頼んだぞ! DW Pose!
体幹の指示を明確にすると作画崩壊を避けられる、って例がこれまでにもありました。崩壊しがちなニムロデも、「DW Pose」を使えば、それなりに形を保ってくれます。ということで、いざ挑戦! 条件はこれまでと同じ+「DW Pose」(比重1.0)です。
512pxはまあ何とかなります。ワッペンが袖口にありますけど、これくらいならお絵かき修正する気も起きます。他はさっきよりマシ。マシですけど顔以外崩壊は変わりませんでした。体幹とかそういう問題でもなさそうな感じです。
この後さらに悪あがきして、「ご参考までに」を追加したんですけど、目立った効果も得られず断念。
ひょっとしたら背景ありだと結果が違う? という淡い期待を残した状態で、単色無地背景の画素数検証は終了することとしました。結論、PixAI.artにおける3DキャラのLoRA学習は512pxが最強。ミノ子限定かもしれないですけど、他はムズいっぽいです。
追記(2023/10/1)
気になったのでもうちょっとあがきました。そういえば「DW Pose」以外に崩壊を防ぐ方法として、プロンプトに「girl 1, solo」を追加する、って手がありました。
まずは1024pxLoRAでトリガーワード+「girl 1, solo」として生成してもらいました(左画像)。さっきよりマシになった? けどやっぱり崩壊画像が多いのですよ。
次に2048pxLoRAでトリガーワード+「girl 1, solo」として生成してもらいました(真ん中画像)。こちらはさっきもそれほどひどい崩壊はなかったのですが、さらに多少マシになった感じです。
ラスト、諦めの悪い私はトリガーワードの最初に「girl 1, solo」を追加して、2048pxのLoRA学習をお願いしました。それを用いてトリガーワードのみ生成しもらったのが右画像です。これは1/4の奇跡画像で、他は三人組とか基本崩壊画像です。
調べてみると高解像度なLoRAといっても768pxとか1024pxとかっぽくて、それすら難しいみたいです。2048pxはやり過ぎだったか……。諦めが悪いので、また今度背景ありで挑戦しますけどね!
まとめ
PixAI.artのLoRA学習における、元画像画素数の影響を確認しました。画素数512x512pxだと再現性高い画像が、1024×1024、2048×2048だと崩壊画像ばかりが生成されました。高解像度3DキャラのLoRA化が難しいのか、設定を間違ったのか。後者な気もします!
↓モデル「Moonbeam」の絵柄が良さげなんですけど、髪の毛が灰色っぽいです。
↓背景ありだと1024pxでも崩壊なしを確認。……でも絵柄的にイマイチな気がします。
↓今日も楽しく遊ばせていただきました! ……奥深いですなぁ。
↓PixAI.art活用まとめはこちら。LoRAまとめも作ったほうが良い予感です。
↓PixAI版LoRAの実戦投入はまだまだ時間がかかりそうです。
↓単色無地背景AIイラストでも、合成&修正すれば何とかなる? と思ってます!