Z深度画像を利用してイメージを生成する - ControlNet Depth を利用 - Stable Diffusion

ControlNetのZ深度画像を利用してイメージを生成する手順を紹介します。

概要

ControlNetのDepthを利用すると、深度表現された画像から画像を生成できます。
この記事では、Z深度画像を利用して画像を生成する手順を紹介します。

事前準備

ControlNetの導入

ControlNetを導入します。インストール手順はこちらの記事を参照してください。

Z深度画像の作成

3DCG ソフトウェアなどでシーンをモデリングします。今回は下図のシーンを準備しました。

レンダリングしてZ深度画像を作成します。下図の画像がレンダリングできました。

手順

Stable Diffusion Web UIにWebブラウザでアクセスします。

ControlNetの枠を展開します。

作成したZ深度画像を入力画像に設定します。

[Enable]のチェックボックスをクリックしてチェックをつけます。[Model]のドロップダウンリストボックスをクリックし、ドロップダウンリストの[control_v11f1p_sd15_depth]の項目をクリックして選択します。

今回は完成しているZ深度画像を入力しているため、[Preprocessor]は[None]のままとします。

ページの上部に戻りプロンプトを設定します。以下のプロンプトを入力します。砂漠の中の遺跡のイメージです。

Prompt

hires,4k,ruins, desert, blue sky, dry

Negative prompt

worst quality, low quality,

出力サイズを設定します。Z深度画像の縦横比と合わせたサイズ(960x540)に設定します。

[Generate]ボタンをクリックします。画像が生成されました。

画像を確認します。

Z深度画像に合わせた画像が生成できています。

何パターンか出力します。画像に変化はありますが、構図や構造は変化していません。

Stable Diffusionに若干脚色を入れてもらいます。[Control Weight]の値を1.0から0.5に下げます。

画像を生成します。

元のZ深度画像から若干構造が変化しています。

さらに変化をつけたいので、[Ending Control Step]の値も1.0から0.5に下げます。

画像を生成します。

元のZ深度の画像から形状に変化があります。

完成

パラメーターを調整してこちらを完成画像としました。

hires,4k,ruins, desert, blue sky, dry
Negative prompt: worst quality, low quality,
Steps: 30, Sampler: LMS, CFG scale: 7, Seed: 1216323038, Size: 960x540, Model hash: db6cd0a62d, Model: Counterfeit-V3.0, ControlNet: "preprocessor: none, model: control_v11f1p_sd15_depth [cfd03158], weight: 1, starting/ending: (0, 1), resize mode: Crop and Resize, pixel perfect: False, control mode: Balanced, preprocessor params: (512, 64, 64)", Version: v1.3.2