GeForce RTX 4090 と GeForce RTX 4070 Ti のStable Diffusionでの速度差を比較する

GeForce RTX 4090 と GeForce RTX 4070 Ti の速度差をStable Diffusionで比較します。
一般的なベンチマークでは1.8~2倍程度の性能差があるとされていますが、実用シナリオでどの程度の差があるかを確認します。

比較環境

GeForce RTX 4070 Ti

GPU GeForce 4070 Ti (VRAM 12GB)
CPU Intel Xeon W-2125 (4Core 8Thread)
RAM 40GB

GeForce RTX 4090

GPU GeForce 4090 (VRAM 24GB)
CPU Intel Core i9-13900K (24Core 32Thread)
RAM 64GB

GPUスペック比較

GPUのスペックの違いは以下の通り
GeForce 4070 Ti GeForce 4090
アーキテクチャ Ada Lovelace Ada Lovelace
ベース クロック 2.31GHz 2.23GHz
ブースト クロック 2.61GHz 2.52GHz
CUDA Core 7,680 16,384
Tensor Core 240 512
Shader 7680 16,384
RT Core 60 128
メモリタイプ GDDR6X GDDR6X
メモリ容量 12GB 24GB
メモリ転送レート 21.0Gbps 21.0Gbps
メモリ インターフェイス幅 192 ビット 384 ビット
メモリバス帯域幅 504 GB/s 1,008 GB/s

Stable Diffusion 1.5

以下のプロンプトでseedを変更しながら、36枚画像を生成します。
Prompt
Prompt: best quality, extreme beautiful adult girl, black hair, short dark green jacket, plain white t-shirt, tight shirt
Negative prompt: worst quality, bad quality, bad anatomy, bad quality
Sampling method: DPM++ 2M SDE Karras
Sampling step:50
Size 512 x 512
Model: Counterfeit v3.0

GeForce 4070 Ti

Batch countBatch Size 生成時間
36 1 2分43秒
18 2 1分52秒
9 4 1分43秒

生成結果例


VRAM使用量は5GB程度です。

GeForce 4090

Batch countBatch Size 生成時間
36 1 1分14秒
18 2 58秒
9 4 52秒
6 6 51秒

生成結果例


VRAM使用量は5GB程度です。

比較結果

GeForce RTX 4090のほうが2倍速い結果になりました。Batch size の値を増やした場合、 RTX 4070Tiでは30~35%程度、RTX 4090では20~30%程度の速度向上になりました。

SDXL

以下のプロンプトでseedを変更しながら、16枚画像を生成します。
Prompt
Prompt: best quality, extreme beautiful adult girl, black hair, short dark green jacket, plain white t-shirt, tight shirt
Negative prompt: worst quality, bad quality, bad anatomy, bad quality
Sampling method: DPM++ 2M SDE Karras
Sampling step:50
Size 1024 x 1024
Model: CounterfeitXL v1.0

GeForce 4070 Ti

Batch countBatch Size 生成時間 生成時間(--medvram あり)
16 1 7分04秒 5分9秒
8 2 8分13秒 5分3秒
4 4 8分58秒 6分9秒

生成結果例


VRAM使用量はメモリ搭載量の12GBを超え、共有VRAMとしてメインメモリも6GBほど使用されています。


--medvramオプションがある場合はVRAM使用量は7.5GB程度となり、搭載量の12GB以内に収まります。

GeForce 4090

Batch countBatch Size 生成時間 生成時間(--medvram あり)
16 1 2分24秒 3分20秒
8 2 2分08秒 2分41秒
4 4 2分06秒 2分29秒

生成結果例


VRAM使用量は10G程度でGPUのVRAM内に収まっています。RTX 4070 TiよりVRAM使用量が少ない状況はよくわかりません。


--medvramオプションがある場合はVRAM使用量は11GB程度となります。

比較結果

SDXLの場合は、GeForce RTX 4090のほうが4倍程度速い結果になりました。Batch size の値を増やした場合、 RTX 4070Tiでは生成速度は逆に遅くなってしまいます。RTX 4090では10~12%程度の速度向上になりました。


--medvram オプションを入れると、 RTX 4090とRTX 4070 Tiとの速度差は、2倍程度になります。 --medvramなしの4090と--medvramありの4070tiでは3倍弱の速度差になります。
Batch size の値を増やした場合、RTX 4070Tiでは2の場合はわずかに生成速度が上がりますが、4になると逆に遅くなってしまいます。 RTX 4090では20~25%程度の速度向上になりました。

まとめ

Stable Diffusion 1.5の場合は GeForce RTX 4070 Tiでも短時間で生成できるため、 GeForce RTX 4090 が2倍高速に生成できるメリットはそれほど感じられませんが、 SDXLの場合は、GeForce RTX 4070 Tiでも生成時間がかかるため、GeForce RTX 4090 が3~4倍高速に生成できるメリットは大きいです。


著者
iPentecのメインデザイナー
Webページ、Webクリエイティブのデザインを担当。PhotoshopやIllustratorの作業もする。
掲載日: 2023-09-02
iPentec all rights reserverd.