iPentec.com / Doc / 画像生成 / Stable Diffusion / Stable Diffusion Prompt

「じゃーん！こちらです！」のポーズのプロンプト - Stable Diffusion

「じゃーん！こちらです！」のポーズのプロンプトを検討して画像を生成します。

やりたいこと

今回P(プロデューサー)からの指定は下図のポーズです。
言葉で表現するのが難しいポーズで苦戦しそうです。

ControlNet Sketchを利用する

はじめにControl Sketchを利用して画像生成する方式を試します。
下図の入力画像を準備します。

ControlNetの入力画像に設定し、Preprocessor "scribble_pidinet", Model "t2i-adapter_xl_sketch" (モデルハッシュ:ff9b22fb)を設定し、画像生成します。

プロンプトは以下を利用します。

Prompt

Prompt:1girl, very aesthetic, arm raised, upper navel body, arm outstretched, gray shirt, black pants, simple background, look at viewer, show with arms
Negative prompt:worst quality, low quality

Animagine XL v3.1での生成結果は下図です。
8割以上は想定していたポーズと別のポーズになってしまいますが、低確率で意図したポーズの画像が生成されます。

LizMix v6.0での生成結果です。LizMixのほうが狙ったポーズでの出力になりやすい印象です。

7th Anime XL Aの生成結果です。

7th Anime XL Bの生成結果です。

BluePencil XL v6.0.0の生成結果です。低確率ですが、意図したポーズの出力があります。

ControlNet OpenPoseを利用する

次に、ControlNet OpenPoseを利用します。OpenPose Editorを使用して下図のポーズを作成します。

[Send to txt2img]ボタンをクリックし、ポーズをtxt2imgのControlNetの入力に設定します。 Preprocessorを"none"に設定し、Modelを"thibaud_OpenPoseXL2" (モデルハッシュ:f4251cb4)を指定します。

メモ

thibaud_OpenPoseXL2 は(https://huggingface.co/thibaud/controlnet-openpose-sdxl-1.0)から入手できます。

Control Weightは0.5まで下げます。

プロンプトは以下を利用します。

Prompt

Prompt:1girl, very aesthetic, arm raised, upper navel body, arm outstretched, gray shirt, black pants, simple background, look at viewer, show with arms
Negative prompt:worst quality, low quality

LizMix v6.0での生成結果です。近いポーズは出力されますが、意図したポーズとは微妙に違います。

PoseMy.ArtからDepthを出力し、ControlNet Depthを使用する

PoseMy.ArtからDepthを出力し、ControlNet Depthを使用する方法も試します。
PoseMy.Artでポーズをさぃせおそ。Depthをエクスポートします。

下図のDepth画像を出力できました。

ControlNetの入力画像にDepthの画像を設定します。Preprocessorに"none"を Modelに "diffusers_controlnet-zoe-depth-sdxl-1.0" (モデルハッシュ:edc9485c)を指定します。
Control Weightは0.5まで下げます。

画像を生成します。生成結果は下図です。

画像の生成はできましたが、ややポーズが固い印象があります。

バリエーションの作成

3つの方法でポーズの画像を生成しましたが、生成画像を見比べた結果、下図の画像を採用しました。ControlNet Sketchで作成した画像が採用になりました。

生成した画像のシャツの色や髪色を変更します。カラーの変更には、ContorlNet Tileを利用します。
ControlNetの入力画像に採用した画像を設定します。Preprocessorに "tile_resample" を指定し、Modelに "TTPLANET_Controlnet_Tile_realistic_v2_fp16" (モデルハッシュ:c32b8550)を指定します。

メモ

TTPLANET_Controlnet_Tile_realistic_v2_fp16は(https://huggingface.co/TTPlanet/TTPLanet_SDXL_Controlnet_Tile_Realistic)から入手できます。

以下のプロンプトで画像生成を実行します。

Prompt

Prompt:1girl, very aesthetic, yellow shirt, black pants, brown hair
Negative prompt:worst quality, low quality

生成結果は下図です。ポーズは変えずにカラーの変更ができました。

下図の画像を採用します。手が不自然なので、修正します。

修正した画像を img2img に入力します。img2imgのDenoising strengthは0.5に設定します。
ControlNet Lineartを利用します。Preprocessorに"lineart_standard (from white bg & black line)" を指定し、 Modelに"controlnetxlCNXL_tencentarcLineart" (モデルハッシュ:905c2459)を指定します。 Contorl Weightは0.5に設定します。