Deep Shrink Hires.fixを利用して大きいサイズの画像を生成する

概要

Deep Shrink Hires.fixを利用して大きいサイズの画像を生成する手順と、他のアップスケールとの生成画像の比較をします。
Deep Shrink Hires.fixのインストール手順はこちらの記事を参照してください。
メモ
通常のHires.fixについてはこちらの記事を参照してください。

アップスケーラーを利用しない画像生成

初めにアップスケーラーを利用せずに、画像生成をします。 以下のプロンプトと設定で画像を生成します。
Prompt & Settings
Prompt: wide view, big grassland, forest, small town
Negative prompt: worst quality
Model: animagineXLV3_v30
Sampler: DPM++ 2M SDE Karras
Size: 1024x768

生成結果は下図です。

画像の出力サイズを2倍にして画像を生成する

続いて、アップスケーラーを使用せずに、単純に出力する画像の縦横のサイズを2倍にして生成結果を確認します。
以下のプロンプトと設定で画像を生成します。
Prompt & Settings
Prompt: wide view, big grassland, forest, small town
Negative prompt: worst quality
Model: animagineXLV3_v30
Sampler: DPM++ 2M SDE Karras
Size: 2048x1536
生成結果は下図です。最初の生成結果と比較すると、大きく引いたロングショットの構図になり、上空からの視点の画像になりました。 最初の1024幅の画像と同じ構図で描画密度が高まった画像が出力されることを期待していましたが、大きく構図や視点が変化してしまいます。
また、画面内に占める空の割合もかなり少ないです。

Deep Shrink Hires.fixを利用して画像を生成する

Deep Shrink Hires.fixを利用します。
今回は txt2img で利用します。txt2imgの画面で下にスクロールします。 Deep Shrink Hires.fixがインストールできていれば、左側の枠に[Kohya Hires.fix]のパネルがありますので、クリックして展開します。


[Kohya Hires.fix]パネル内の[Enable extension]のチェックボックスをクリックしてチェックをつけます。
Deep Shrink Hires.fixの設定項目はデフォルトのままとします。(下図参照)



画像の出力サイズをオリジナルの2倍の大きさ(2048)に変更します。
以下のプロンプトと設定で画像を生成します。
Prompt & Settings
Prompt: wide view, big grassland, forest, small town
Negative prompt: worst quality
Model: animagineXLV3_v30
Sampler: DPM++ 2M SDE Karras
Size: 2048x1536
生成結果は下図です。若干上空からの視点にはなってしまいますが、オリジナルの1024幅の画像の構図と似た出力になります。
オリジナルの出力をアップスケールした状態に近い画像が生成できました。
全体的に細かい形状の描画となります。もう少し大きな家やオブジェクトが描画されてもよいかなという印象です。

Hires.fixとの比較

従来のHires.fixと比較します。

生成結果は下図です。ロングショットの構図がやや多めですが、上空からの視点でない画像も出力できています。 魚眼効果や大きくアップダウンのある地表など、変わった形状の出力が他の方式より多い印象です。

Tiled Diffusionとの比較

Tiled Diffusionでの生成結果と比較します。
Tiled Diffusionでは、先にオリジナルの設定で、1024幅の画像を作成し、作成した画像をimg2imgの入力に与え、 出力を2倍のサイズにし、Tiled Diffusionを適用する方法でアップスケールします。
手順の詳細はこちらの記事を参照してください。


生成結果は下図です。家が大きく描画される出力もあり、大きく引いたアングルにならない印象です。

別の例(あまりうまくいかないケース)

次のプロンプトで出力します。
Prompt & Settings
Prompt: 3girls, in forest, deep forest
Negative prompt: worst quality
Model: Animagine XL v3
Sampler: Euler a

Deep Shrink Hires.fix なし

Size: 1024x1024 で出力します。

プロンプトでは3キャラの指定ですが、2キャラの場合や、4キャラクターの出力もあります。

Deep Shrink Hires.fix あり

Size: 2048x2048 で出力します。

多人数での出力になってしまいます。

評価・所感

オリジナルの1024幅は近景の描画がある出力もあり、画面にメリハリがあります。
単純に2倍の解像度にした場合は、オリジナルの出力から構図が大きく変わってしまいます。また、全体が一様に細かく描画される印象です。
Deep Shrink Hires.fixを利用すると、オリジナルの画像に似た構図の出力結果になります。詳細感が高まるため、 やや大きなオブジェクトは描画されにくい印象です。
Hires.fixも同様の結果になりますが、形状が局所的に大きく変化する場合があるため、絵としてのまとまりが若干落ちる面があるかなという印象です。
Tiled Diffusionはアップスケールはできますが、他の手法より細部の描画密度は上がらない印象です。一方で大きな家や木などのオブジェクトが 出力されやすい傾向です。
また、全体的に多くのものを小さく描画される傾向のため、キャラクターの人数指定をした場合は、多人数で出力される結果になりました。

著者
iPentecのメインデザイナー
Webページ、Webクリエイティブのデザインを担当。PhotoshopやIllustratorの作業もする。
掲載日: 2023-12-14
iPentec all rights reserverd.