Stable Diffusionの新しいSDXLのモデルで画像生成すると、あまり品質の良くない画像が生成される、プロンプトが反映されない画像が生成される
Stable Diffusion XLで新しいSDXLのモデルで画像生成すると、あまり品質の良くない画像が生成される現象と、対処法の紹介です。
現象
Stable Diffusion XLの新しいモデルを利用して画像を生成すると、以前のモデルに比べて品質がやや低い画像が生成される場合があります。
また、プロンプトに記述したタグやワードが反映されない画像が生成されることもあります。
原因1
モデルには、Pony Diffusion XL をマージしているモデルや、Pony Diffusion XLに対して追加学習をしているモデルが増えてきています。
Pony Diffusionはもともとは動物キャラクターの画像を生成するモデルでしたが、いくつかのメリットがあるため、
最近のモデルではPony Diffusionをマージしたモデルが登場しています。
Pony Diffusion XL では学習時のタグの設定がこれまでのモデルと違い、従来のプロンプトをそのまま利用して出力すると、
品質の条件が設定できずに生成画像の品質が落ちてしまいます。
原因2
Pony Diffusion XL系のモデルであっても、追加学習をされたモデルやSDXL系のモデルをマージした場合には、
スコア系のタグを入力すると逆に品質が落ちたり、プロンプトが反映されないケースがあります。
特に、4th tail と呼ばれる新しいモデルでは、Pony系のモデルとされていますが、Pony Diffusion XLのスコアタグで画像生成をすると
生成結果の品質が大きく落ちます。同様に、4th tailをマージしたモデルの場合もスコアタグを利用すると生成画像の品質が落ちる傾向にあります。
この場合は、従来のSDXLのAnimagineのモデルで利用しているタグの形式を使用します。
Pony Diffusion XLのプロンプト
Pony Diffusion XLでは品質に関する以下のタグがあります。
score_9
score_8_up
score_8
score_7_up
score_7
score_6_up
score_6
score_5_up
score_5
score_4_up
score_4
※score_3, score_2, score_1 があるかは不明
また、学習元画像に関する以下のタグがあります。
source_anime
source_pony
source_furry
source_cartoon
レーティングに関する以下のタグもあります。
rating_safe
rating_questionable
rating_explicit
もともとのPony Diffusionでのテンプレートタグとして以下があります。
これらを組み合わせて、イラスト系の画像を出力する場合には、以下のプロンプトをポジティブとネガティブに追加します。
また、Pony Diffusionではリアル系の画像や写真も学習データに含まれているように見えるため、"3d" や "Photo" "Realistic" などのタグを
ネガティブプロンプトに設定することも効果的です。
スコアタグやSourceタグの違いによる画像生成結果の違いについては
こちらの記事 も参照して下さい。
プロンプト
Promptに追加するタグ (パターン1)
score_9, score_8_up, score_7_up,score_6_up, score_5_up, source_anime,
score_8, score_7にはリアル寄りの画像が学習されているため、8,7を抜くアイディアのプロンプトです。
Promptに追加するタグ (パターン2)
score_9, score_6_up, score_5_up, score_4_up, source_anime,
ネガティブ プロンプト
Negative promptに追加するタグ (パターン1)
source_cartoon, source_furry, source_pony, sketch, painting, monochrome,
Negative promptに追加するタグ (パターン2)
source_cartoon, source_furry, source_pony, 3d,
Negative promptに追加するタグ (パターン3)
source_cartoon, source_furry, source_pony, anthro, feral, 3d,
Negative promptに追加するタグ (パターン4)
score_4, score_5, score_6, source_pony, source_furry, 3d, photo, hyperrealistic, realstic,
従来のモデルとマージされているモデル
従来のモデルとマージされているモデルの場合は従来の品質タグと組み合わせて以下のプロンプトを追加すると、良好な結果となる場合があります。
Promptに追加するタグ (例)
score_9, score_8_up, score_7_up,score_6_up,source_anime, masterpiece, best quality, hires,
Negative promptに追加するタグ (例)
source_cartoon, source_furry, source_pony, 3d, worst quality, low quality,
Pony Diffusion XL をマージするメリット
Pony Diffusion XLは広範なジャンルの大量の画像を学習しているため、プロンプトの反応が良く、従来のモデルでは出力できない画像が生成できたり、非現実な画像を生成できる利点があります。
プロンプトに対するバリエーションも豊富で、同じプロンプトでもポーズの違いや体形の違い、ペインティングの違いなどバリエーションが豊かな出力になります。
一方で、品質の低い画像やリアリスティックな画像も大量に学習しているため、プロンプトをうまく設定しないと、リアル系の画像が生成されたり、品質の低い画像が生成される場合があります。
また、ラフやスケッチの画像も学習しているためか、ゆがみのある線やラフ感のある画像出力も得意な印象があります。
メモ
Pony Diffusion XLの派生モデルですが、徐々に学習が進み生成画像の品質向上は進んでいますが、
マージや学習が進んだため、2024年3月以降のモデルは全体的に大人しい画像が出力される傾向です。
非現実感の強い画像を生成したい場合は、2024年2月前後の古いモデルを選択するのも一つのアイディアです。
例1:従来のプロンプトとの出力差
Pony Diffusion系のモデルで以下のプロンプト2つで出力画像を比較します。
Prompt1:従来のSDXLプロンプト
Prompt: masterpiece, hires, 1girl, red jacket, orange long skirt, black hair, brown sneakers, full body, standing, dynamic posing
Negative prompt: worst quality, low quality, lowres
Prompt2:Pony Diffusion XLのプロンプト
Prompt: score_9, score_8_up, score_7_up, source_anime, girl, red jacket, orange long skirt, black hair, brown sneakers, full body, standing, dynamic posing
Negative prompt: source_furry, source_pony, source_cartoon, anthro, feral, score_4, score_3, score_2, 3d
モデルは "AutismMix SDXL (AutismMix_pony)" を利用します。
結果は下図です。Prompt2のほうが立体感が良く表現できており、出力品質が良いことが確認できます。
Prompt1
Prompt2
参考として、Prompt1でAnimagine XL v3.1の出力結果を掲載します。今回のプロンプトでは、Pony系モデルの特徴が出にくく、AnimagineXLのほうが品質が良い結果になりました。
Prompt1:Animagine XL v3.1
例2:ラフ感のある画像生成
Prompt
Prompt:score_9, score_8_up, score_7_up, source_anime, 1girl, yellow sweater, kawaii, upper body, (black border:1.2), (flat color:1.2), sketch, white background
Negative prompt:source_furry, source_pony, source_cartoon, score_4, score_3, score_2, 3d, photo, eyelashes,
Pony Diffusion for Anime v1.0
華やかさを落とした絵柄で表情もニュートラルに近い絵柄で出力されます。
Mistoon_XL_Copper v1.0
こちらも同様に、落ち着いた絵柄での出力になります。輪郭線の荒さも従来モデルと異なります。
Eponym v1.1
モデルによっては中性的な絵柄で生成されることもあります。
比較:Animagine XL v3.0
Prompt
Prompt:masterpiece, 1girl, yellow sweater, upper body, (black border:1.2), (flat color:1.2), sketch, white background
Negative prompt:worst quality, low quality, 3d, photo, eyelashes,
フラット感の度合いや、線の出方がPony系のモデルとは違います。ラフ感は感じられますが、線自体はかなりきれいに描画されています。
例3:表情に関する比較
Pony系モデルの良さが出やすいキャラクターの表情で比較します。
Pony系モデルの"7th Anime XL Pony A"とAnimagine XL v3.1にそれぞれ以下のプロンプトで画像生成し違いを比較します。
Prompt:7th Anime XL Pony A
Prompt: score_9, score_8_up, score_7_up, girl, upper body, big laughing, anime style shading
Negative prompt: source_furry, source_pony, source_cartoon, score_4, score_3, score_2, 3d, photo, fang
Prompt:Animagine XL v3.1
Prompt: masterpiece, hires, 1girl, upper body, big laughing
Negative prompt: worst quality, low quality, lowres
Pony系モデルは犬歯が強調されますので、ネガティブプロンプトに"fang"を入れて犬歯が出ないように制御しています。
Animagineでは "anime style" を含めると完全にアニメ塗りになってしまいますので、プロンプトには含めていません。
Sampling methodはEuler aでステップ数30で実行しています。
結果は下図です。表情のバリエーションがAnimagineより広く、表現の違いもあることがわかります。
Pony系の7th Anime XL Pony Aの出力画像のほうが魅力的と感じる方のほうが多いのではないでしょうか。
7th Anime
Animagine
補足
Pony Diffusion XLの派生モデルについては、
こちらの記事 も参照してください。
4th tail 系のプロンプト
4th tail系のモデルでは以下のプロンプトを利用します。
score_9
score_8_up
score_7_up
などのタグは入力せずに画像生成します。
Prompt:プロンプト
Prompt: masterpiece, best quality
Negative prompt: low quality, worst quality
比較
4th tailモデルを利用して、以下のプロンプトで比較します。
Prompt1
Prompt:1girl, red jacket, orange long skirt, black hair, brown sneakers, full body, standing, dynamic posing, score_9, score_8_up, score_7_up, source_anime
Negative prompt:source_furry, source_pony, source_cartoon, score_4, score_3, score_2, 3d, photo, eyelashes
Prompt2
Prompt:1girl, red jacket, orange long skirt, black hair, brown sneakers, full body, standing, dynamic posing, anime shading, masterpiece, best quality, hires
Negative prompt:worst quality, low quality, lowres
画像生成結果は下図です。品質面では大きな違いはありませんが、Prompt1のスコア系のタグではフラット感の強い画像が生成されますが、
Prompt2では立体感の強いややリアルな画像が生成されました。
このプロンプトでは違いが出ませんでしたが、スコア系のタグで画像生成すると、プロンプト追従があまり良くない画像が生成される場合があります。
4th tail:Prompt1
4th tail:Prompt2
著者
iPentecのメインデザイナー
Webページ、Webクリエイティブのデザインを担当。PhotoshopやIllustratorの作業もする。