新しいSDXLのモデルで画像生成すると、あまり品質の良くない画像が生成される、プロンプトが反映されない画像が生成される - Stable Diffusion

Stable Diffusion XLで新しいSDXLのモデルで画像生成すると、あまり品質の良くない画像が生成される現象と、対処法の紹介です。

現象

Stable Diffusion XLの新しいモデルを利用して画像を生成すると、以前のモデルに比べて品質がやや低い画像が生成される場合があります。
また、プロンプトに記述したタグやワードが反映されない画像が生成されることもあります。

原因1

モデルには、Pony Diffusion XL をマージしているモデルや、Pony Diffusion XLに対して追加学習をしているモデルが増えてきています。 Pony Diffusionはもともとは動物キャラクターの画像を生成するモデルでしたが、いくつかのメリットがあるため、 最近のモデルではPony Diffusionをマージしたモデルが登場しています。

Pony Diffusion XL では学習時のタグの設定がこれまでのモデルと違い、従来のプロンプトをそのまま利用して出力すると、 品質の条件が設定できずに生成画像の品質が落ちてしまいます。

原因2

Pony Diffusion XL系のモデルであっても、追加学習をされたモデルやSDXL系のモデルをマージした場合には、 スコア系のタグを入力すると逆に品質が落ちたり、プロンプトが反映されないケースがあります。
特に、4th tail と呼ばれる新しいモデルでは、Pony系のモデルとされていますが、Pony Diffusion XLのスコアタグで画像生成をすると 生成結果の品質が大きく落ちます。同様に、4th tailをマージしたモデルの場合もスコアタグを利用すると生成画像の品質が落ちる傾向にあります。
この場合は、従来のSDXLのAnimagineのモデルで利用しているタグの形式を使用します。

Pony Diffusion XLのプロンプト

Pony Diffusion XLでは品質に関する以下のタグがあります。
  • score_9
  • score_8_up
  • score_8
  • score_7_up
  • score_7
  • score_6_up
  • score_6
  • score_5_up
  • score_5
  • score_4_up
  • score_4
※score_3, score_2, score_1 があるかは不明

また、学習元画像に関する以下のタグがあります。
  • source_anime
  • source_pony
  • source_furry
  • source_cartoon

レーティングに関する以下のタグもあります。
  • rating_safe
  • rating_questionable
  • rating_explicit

もともとのPony Diffusionでのテンプレートタグとして以下があります。
  • anthro
  • feral

これらを組み合わせて、イラスト系の画像を出力する場合には、以下のプロンプトをポジティブとネガティブに追加します。
また、Pony Diffusionではリアル系の画像や写真も学習データに含まれているように見えるため、"3d" や "Photo" "Realistic" などのタグを ネガティブプロンプトに設定することも効果的です。
スコアタグやSourceタグの違いによる画像生成結果の違いについてはこちらの記事も参照して下さい。

プロンプト

Promptに追加するタグ (パターン1)
score_9, score_8_up, score_7_up,score_6_up, score_5_up, source_anime,

score_8, score_7にはリアル寄りの画像が学習されているため、8,7を抜くアイディアのプロンプトです。
Promptに追加するタグ (パターン2)
score_9, score_6_up, score_5_up, score_4_up, source_anime,

ネガティブ プロンプト

Negative promptに追加するタグ (パターン1)
source_cartoon, source_furry, source_pony, sketch, painting, monochrome,
Negative promptに追加するタグ (パターン2)
source_cartoon, source_furry, source_pony, 3d,
Negative promptに追加するタグ (パターン3)
source_cartoon, source_furry, source_pony, anthro, feral, 3d,
Negative promptに追加するタグ (パターン4)
score_4, score_5, score_6, source_pony, source_furry, 3d, photo, hyperrealistic, realstic,

従来のモデルとマージされているモデル

従来のモデルとマージされているモデルの場合は従来の品質タグと組み合わせて以下のプロンプトを追加すると、良好な結果となる場合があります。
Promptに追加するタグ (例)
score_9, score_8_up, score_7_up,score_6_up,source_anime, masterpiece, best quality, hires,
Negative promptに追加するタグ (例)
source_cartoon, source_furry, source_pony, 3d, worst quality, low quality,

Pony Diffusion XL をマージするメリット

Pony Diffusion XLは広範なジャンルの大量の画像を学習しているため、プロンプトの反応が良く、従来のモデルでは出力できない画像が生成できたり、非現実な画像を生成できる利点があります。 プロンプトに対するバリエーションも豊富で、同じプロンプトでもポーズの違いや体形の違い、ペインティングの違いなどバリエーションが豊かな出力になります。 一方で、品質の低い画像やリアリスティックな画像も大量に学習しているため、プロンプトをうまく設定しないと、リアル系の画像が生成されたり、品質の低い画像が生成される場合があります。
また、ラフやスケッチの画像も学習しているためか、ゆがみのある線やラフ感のある画像出力も得意な印象があります。

メモ
Pony Diffusion XLの派生モデルですが、徐々に学習が進み生成画像の品質向上は進んでいますが、 マージや学習が進んだため、2024年3月以降のモデルは全体的に大人しい画像が出力される傾向です。 非現実感の強い画像を生成したい場合は、2024年2月前後の古いモデルを選択するのも一つのアイディアです。

例1:従来のプロンプトとの出力差

Pony Diffusion系のモデルで以下のプロンプト2つで出力画像を比較します。
Prompt1:従来のSDXLプロンプト
Prompt: masterpiece, hires, 1girl, red jacket, orange long skirt, black hair, brown sneakers, full body, standing, dynamic posing
Negative prompt: worst quality, low quality, lowres
Prompt2:Pony Diffusion XLのプロンプト
Prompt: score_9, score_8_up, score_7_up, source_anime, girl, red jacket, orange long skirt, black hair, brown sneakers, full body, standing, dynamic posing
Negative prompt: source_furry, source_pony, source_cartoon, anthro, feral, score_4, score_3, score_2, 3d
モデルは "AutismMix SDXL (AutismMix_pony)" を利用します。
結果は下図です。Prompt2のほうが立体感が良く表現できており、出力品質が良いことが確認できます。
Prompt1
Prompt1

Prompt2
Prompt2

参考として、Prompt1でAnimagine XL v3.1の出力結果を掲載します。今回のプロンプトでは、Pony系モデルの特徴が出にくく、AnimagineXLのほうが品質が良い結果になりました。
Prompt1:Animagine XL v3.1
Prompt1:Animagine XL v3.1

例2:ラフ感のある画像生成

Prompt
Prompt:score_9, score_8_up, score_7_up, source_anime, 1girl, yellow sweater, kawaii, upper body, (black border:1.2), (flat color:1.2), sketch, white background
Negative prompt:source_furry, source_pony, source_cartoon, score_4, score_3, score_2, 3d, photo, eyelashes,
Pony Diffusion for Anime v1.0
Pony Diffusion for Anime v1.0

華やかさを落とした絵柄で表情もニュートラルに近い絵柄で出力されます。
Mistoon_XL_Copper v1.0
Mistoon_XL_Copper v1.0

こちらも同様に、落ち着いた絵柄での出力になります。輪郭線の荒さも従来モデルと異なります。
Eponym v1.1
Eponym v1.1

モデルによっては中性的な絵柄で生成されることもあります。

比較:Animagine XL v3.0

Prompt
Prompt:masterpiece, 1girl, yellow sweater, upper body, (black border:1.2), (flat color:1.2), sketch, white background
Negative prompt:worst quality, low quality, 3d, photo, eyelashes,
フラット感の度合いや、線の出方がPony系のモデルとは違います。ラフ感は感じられますが、線自体はかなりきれいに描画されています。

例3:表情に関する比較

Pony系モデルの良さが出やすいキャラクターの表情で比較します。
Pony系モデルの"7th Anime XL Pony A"とAnimagine XL v3.1にそれぞれ以下のプロンプトで画像生成し違いを比較します。
Prompt:7th Anime XL Pony A
Prompt: score_9, score_8_up, score_7_up, girl, upper body, big laughing, anime style shading
Negative prompt: source_furry, source_pony, source_cartoon, score_4, score_3, score_2, 3d, photo, fang
Prompt:Animagine XL v3.1
Prompt: masterpiece, hires, 1girl, upper body, big laughing
Negative prompt: worst quality, low quality, lowres

Pony系モデルは犬歯が強調されますので、ネガティブプロンプトに"fang"を入れて犬歯が出ないように制御しています。 Animagineでは "anime style" を含めると完全にアニメ塗りになってしまいますので、プロンプトには含めていません。
Sampling methodはEuler aでステップ数30で実行しています。
結果は下図です。表情のバリエーションがAnimagineより広く、表現の違いもあることがわかります。 Pony系の7th Anime XL Pony Aの出力画像のほうが魅力的と感じる方のほうが多いのではないでしょうか。
7th Anime
7th Anime

Animagine
Animagine


補足
Pony Diffusion XLの派生モデルについては、こちらの記事も参照してください。

4th tail 系のプロンプト

4th tail系のモデルでは以下のプロンプトを利用します。
score_9 score_8_up score_7_up などのタグは入力せずに画像生成します。
Prompt:プロンプト
Prompt: masterpiece, best quality
Negative prompt: low quality, worst quality

比較

4th tailモデルを利用して、以下のプロンプトで比較します。
Prompt1
Prompt:1girl, red jacket, orange long skirt, black hair, brown sneakers, full body, standing, dynamic posing, score_9, score_8_up, score_7_up, source_anime
Negative prompt:source_furry, source_pony, source_cartoon, score_4, score_3, score_2, 3d, photo, eyelashes
Prompt2
Prompt:1girl, red jacket, orange long skirt, black hair, brown sneakers, full body, standing, dynamic posing, anime shading, masterpiece, best quality, hires
Negative prompt:worst quality, low quality, lowres

画像生成結果は下図です。品質面では大きな違いはありませんが、Prompt1のスコア系のタグではフラット感の強い画像が生成されますが、 Prompt2では立体感の強いややリアルな画像が生成されました。
このプロンプトでは違いが出ませんでしたが、スコア系のタグで画像生成すると、プロンプト追従があまり良くない画像が生成される場合があります。
4th tail:Prompt1
4th tail:Prompt1

4th tail:Prompt2
4th tail:Prompt2

著者
iPentecのメインデザイナー
Webページ、Webクリエイティブのデザインを担当。PhotoshopやIllustratorの作業もする。
掲載日: 2024-03-10
iPentec all rights reserverd.