GeForce RTX 4090 と GeForce RTX 4070 Ti のStable Diffusionでの速度差を比較する
GeForce RTX 4090 と GeForce RTX 4070 Ti の速度差をStable Diffusionで比較します。
一般的なベンチマークでは1.8~2倍程度の性能差があるとされていますが、実用シナリオでどの程度の差があるかを確認します。
比較環境
GeForce RTX 4070 Ti
GPU | GeForce 4070 Ti (VRAM 12GB) |
CPU | Intel Xeon W-2125 (4Core 8Thread) |
RAM | 40GB |
GeForce RTX 4090
GPU | GeForce 4090 (VRAM 24GB) |
CPU | Intel Core i9-13900K (24Core 32Thread) |
RAM | 64GB |
GPUスペック比較
GPUのスペックの違いは以下の通り
| GeForce 4070 Ti | GeForce 4090 |
アーキテクチャ | Ada Lovelace | Ada Lovelace |
ベース クロック | 2.31GHz | 2.23GHz |
ブースト クロック | 2.61GHz | 2.52GHz |
CUDA Core | 7,680 | 16,384 |
Tensor Core | 240 | 512 |
Shader | 7680 | 16,384 |
RT Core | 60 | 128 |
メモリタイプ | GDDR6X | GDDR6X |
メモリ容量 | 12GB | 24GB |
メモリ転送レート | 21.0Gbps | 21.0Gbps |
メモリ インターフェイス幅 | 192 ビット | 384 ビット |
メモリバス帯域幅 | 504 GB/s | 1,008 GB/s |
Stable Diffusion 1.5
以下のプロンプトでseedを変更しながら、36枚画像を生成します。
Prompt
Prompt: best quality, extreme beautiful adult girl, black hair, short dark green jacket, plain white t-shirt, tight shirt
Negative prompt: worst quality, bad quality, bad anatomy, bad quality
Sampling method: DPM++ 2M SDE Karras
Sampling step:50
Size 512 x 512
Model: Counterfeit v3.0
GeForce 4070 Ti
Batch count | Batch Size | 生成時間 |
36 | 1 | 2分43秒 |
18 | 2 | 1分52秒 |
9 | 4 | 1分43秒 |
生成結果例
VRAM使用量は5GB程度です。
GeForce 4090
Batch count | Batch Size | 生成時間 |
36 | 1 | 1分14秒 |
18 | 2 | 58秒 |
9 | 4 | 52秒 |
6 | 6 | 51秒 |
生成結果例
VRAM使用量は5GB程度です。
比較結果
GeForce RTX 4090のほうが2倍速い結果になりました。Batch size の値を増やした場合、
RTX 4070Tiでは30~35%程度、RTX 4090では20~30%程度の速度向上になりました。
SDXL
以下のプロンプトでseedを変更しながら、16枚画像を生成します。
Prompt
Prompt: best quality, extreme beautiful adult girl, black hair, short dark green jacket, plain white t-shirt, tight shirt
Negative prompt: worst quality, bad quality, bad anatomy, bad quality
Sampling method: DPM++ 2M SDE Karras
Sampling step:50
Size 1024 x 1024
Model: CounterfeitXL v1.0
GeForce 4070 Ti
Batch count | Batch Size | 生成時間 | 生成時間(--medvram あり) |
16 | 1 | 7分04秒 | 5分9秒 |
8 | 2 | 8分13秒 | 5分3秒 |
4 | 4 | 8分58秒 | 6分9秒 |
生成結果例
VRAM使用量はメモリ搭載量の12GBを超え、共有VRAMとしてメインメモリも6GBほど使用されています。
--medvram
オプションがある場合はVRAM使用量は7.5GB程度となり、搭載量の12GB以内に収まります。
GeForce 4090
Batch count | Batch Size | 生成時間 | 生成時間(--medvram あり) |
16 | 1 | 2分24秒 | 3分20秒 |
8 | 2 | 2分08秒 | 2分41秒 |
4 | 4 | 2分06秒 | 2分29秒 |
生成結果例
VRAM使用量は10G程度でGPUのVRAM内に収まっています。RTX 4070 TiよりVRAM使用量が少ない状況はよくわかりません。
--medvram
オプションがある場合はVRAM使用量は11GB程度となります。
比較結果
SDXLの場合は、GeForce RTX 4090のほうが4倍程度速い結果になりました。Batch size の値を増やした場合、
RTX 4070Tiでは生成速度は逆に遅くなってしまいます。RTX 4090では10~12%程度の速度向上になりました。
--medvram
オプションを入れると、 RTX 4090とRTX 4070 Tiとの速度差は、2倍程度になります。
--medvram
なしの4090と
--medvram
ありの4070tiでは3倍弱の速度差になります。
Batch size の値を増やした場合、RTX 4070Tiでは2の場合はわずかに生成速度が上がりますが、4になると逆に遅くなってしまいます。
RTX 4090では20~25%程度の速度向上になりました。
まとめ
Stable Diffusion 1.5の場合は GeForce RTX 4070 Tiでも短時間で生成できるため、 GeForce RTX 4090 が2倍高速に生成できるメリットはそれほど感じられませんが、
SDXLの場合は、GeForce RTX 4070 Tiでも生成時間がかかるため、GeForce RTX 4090 が3~4倍高速に生成できるメリットは大きいです。
著者
iPentecのメインデザイナー
Webページ、Webクリエイティブのデザインを担当。PhotoshopやIllustratorの作業もする。