iPentec.com / Doc / 画像生成 / Stable Diffusion

カラーラフからクリンナップされたイラストを生成する - Stable Diffusion

カラーラフからクリンナップされたイラストを生成する手順の検証をします。

概要

こちらの記事では、ラフ画像からペン入れをしたクリンナップ画像を生成する手順の検証をしました。この記事では、ラフに色がついたカラーのラフ画像から、ラフのイメージとカラーを反映したクリンナップされたイラスト画像を生成できないかを検証します。
今回は以下の複数の方法を利用します。

txt2img
- ContorlNet CN-anytest_v3-25000_fp16 を利用
- ContorlNet CN-anytest_v3-50000_fp16 を利用
- ContorlNet CN-anytest_v4-marged を利用
- ContorlNet dart_v2_sft_img_BlurCN_fp16 を利用
- ControlNet_tori29_blur-fp16 を利用
- rough-coatingV1 を利用
img2img
- ContorlNet CN-anytest_v3-25000_fp16 を利用
- ContorlNet CN-anytest_v3-50000_fp16 を利用
- ContorlNet CN-anytest_v4-marged を利用
- ContorlNet dart_v2_sft_img_BlurCN_fp16 を利用
- ControlNet_tori29_blur-fp16 を利用
- rough-coatingV1 を利用

準備

ラフ画像を準備します。ラフ画像に着色した画像を作成します。下図の画像を用意しました。

続いてラフ画像の題材を表現するプロンプトを作成します。以下のプロンプトとしました。
モデルはAnimagine XL v3.1 を利用します。

Prompt and Settings

Prompt: 1girl, boyish, profile, from side, long thick hoodie, holding a white cup, sitting, masterpiece, white background
Negative Prompt: worst quality, low quality
Sampling method:Euler a, Schedule type:Automatic, Sampling steps: 40

準備したラフ画像を利用しない状態(ControlNetを利用しない状態)で、プロンプトのみで生成した場合の出力結果です。画像にプロンプトに記述したモチーフは反映されていますが、全体の形状は生成結果ごとにまちまちです。

手順:txt2img

txt2imgのタブを選択し、ControlNetの入力画像に着色したラフ画像を設定します。
Preprocessorは"None"を選択します。Modelを設定します。

Scriptを"X/Y/Z Plot"に設定し、[X type]を"[ControlNet] Weight"に設定し、[X values]を"1.0,0.75,0.66,0.5,0.33,0.25"に設定します。 [Y type]を"Seed"に設定し、[Y values]を"100000,200000,300000,400000,500000,600000"に設定します。

ContorlNet CN-anytest_v3-25000_fp16

ControlNetのモデルに CN-anytest_v3-25000_fp16 を設定した場合の結果が下図です。
ポーズはWeightが0.66以上であれば元のポーズと似たポーズが得られます。0.5を下回ると、ポーズの変化が大きくなります。また、カラーリングはほとんど反映されない状況です。色に関する指定をプロンプトに含める必要がありそうです。

ContorlNet CN-anytest_v3-50000_fp16

ControlNetのモデルに CN-anytest_v3-50000_fp16 を設定した場合の結果が下図です。
ポーズはWeightが0.66以上であれば元のポーズと似たポーズが得られます。0.5を下回ると、ポーズの変化が大きくなります。カラーリングはほとんど反映されない状況です。色に関する指定をプロンプトに含める必要がありそうです。
ContorlNet CN-anytest_v3-25000_fp16より、ラフの形状の反映が強い傾向があります。

ContorlNet CN-anytest_v4-marged

ControlNetのモデルに CN-anytest_v4-marged を設定した場合の結果が下図です。
ポーズはWeightが0.66以上であれば元のポーズと似たポーズが得られます。0.5を下回ると、ポーズの変化が大きくなります。カラーリングはほとんど反映されない状況です。色に関する指定をプロンプトに含める必要がありそうです。

ContorlNet dart_v2_sft_img_BlurCN_fp16

ControlNetのモデルに dart_v2_sft_img_BlurCN_fp16 を設定した場合の結果が下図です。
ポーズはWeightが0.5以上であれば元のラフと同様のポーズが得られます。0.5を下回ると、ポーズ自体が変化してしまいます。また、カラーリングはSeedの値によって変化があり、元の入力画像のカラーは反映されにくい結果です。
元のラフの形状を生かす生成結果にするには、Weight0.66から0.5程度の範囲を利用するのが良さそうです。強い補正を求める場合は0.33程度で生成数を増やして選別する方法でも良さそうです。

ControlNet_tori29_blur-fp16

ControlNetのモデルに ControlNet_tori29_blur-fp16 を設定した場合の結果が下図です。
Weightが0.66以上では特徴的な模様が出力されます。

ControlNetの効果がピーキーな印象があるため、0.5以下の値を細かく調べます。"0.5, 0.45, 0.4, 0.33, 0.3, 0.25, 0.2, 0.1, 0.05" の値で調べます。
結果は下図です。Seedの値によっては入力画像が反映されにくいものもあります。0.3を下回ると、入力画像はほとんど反映されない結果となりました。ちょっとしたWeightの違いで結果に大きな違いが出るため、ピーキーなContorlNetモデルの印象です。

rough-coatingV1

ControlNetのモデルに ControlNetXL-rough-coatingV1 を設定した場合の結果が下図です。
元のラフの線が残る画像が生成されます。Weight 0.5程度でもラフ感が残ります。Weight 0.33程度まで下げると、線が整理されますが、元の構図と違う画像が生成される場合もあります。また、入力画像のカラーは反映されにくい傾向です。

ControlNetのEnding Control Stepを0.75に設定した場合の結果です。

ControlNetのEnding Control Stepを0.75に設定した場合の結果です。Weight 0.5程度で線が整理された結果になります。

ControlNetのEnding Control Stepを0.75に設定した場合の結果です。Weight 1.0程度でも線が整理された結果になりますが元の形状から変化する部分も目立ちます。