GeForce RTX 4090 と GeForce RTX 4070 Ti の速度差をStable Diffusionで比較します。
一般的なベンチマークでは1.8~2倍程度の性能差があるとされていますが、実用シナリオでどの程度の差があるかを確認します。
| GPU | GeForce 4070 Ti (VRAM 12GB) |
| CPU | Intel Xeon W-2125 (4Core 8Thread) |
| RAM | 40GB |
| GPU | GeForce 4090 (VRAM 24GB) |
| CPU | Intel Core i9-13900K (24Core 32Thread) |
| RAM | 64GB |
GPUのスペックの違いは以下の通り
| GeForce 4070 Ti | GeForce 4090 | |
|---|---|---|
| アーキテクチャ | Ada Lovelace | Ada Lovelace |
| ベース クロック | 2.31GHz | 2.23GHz |
| ブースト クロック | 2.61GHz | 2.52GHz |
| CUDA Core | 7,680 | 16,384 |
| Tensor Core | 240 | 512 |
| Shader | 7680 | 16,384 |
| RT Core | 60 | 128 |
| メモリタイプ | GDDR6X | GDDR6X |
| メモリ容量 | 12GB | 24GB |
| メモリ転送レート | 21.0Gbps | 21.0Gbps |
| メモリ インターフェイス幅 | 192 ビット | 384 ビット |
| メモリバス帯域幅 | 504 GB/s | 1,008 GB/s |
以下のプロンプトでseedを変更しながら、36枚画像を生成します。
| Batch count | Batch Size | 生成時間 |
|---|---|---|
| 36 | 1 | 2分43秒 |
| 18 | 2 | 1分52秒 |
| 9 | 4 | 1分43秒 |
生成結果例
VRAM使用量は5GB程度です。
| Batch count | Batch Size | 生成時間 |
|---|---|---|
| 36 | 1 | 1分14秒 |
| 18 | 2 | 58秒 |
| 9 | 4 | 52秒 |
| 6 | 6 | 51秒 |
生成結果例
VRAM使用量は5GB程度です。
GeForce RTX 4090のほうが2倍速い結果になりました。Batch size の値を増やした場合、
RTX 4070Tiでは30~35%程度、RTX 4090では20~30%程度の速度向上になりました。
以下のプロンプトでseedを変更しながら、16枚画像を生成します。
| Batch count | Batch Size | 生成時間 | 生成時間(--medvram あり) |
|---|---|---|---|
| 16 | 1 | 7分04秒 | 5分9秒 |
| 8 | 2 | 8分13秒 | 5分3秒 |
| 4 | 4 | 8分58秒 | 6分9秒 |
生成結果例
VRAM使用量はメモリ搭載量の12GBを超え、共有VRAMとしてメインメモリも6GBほど使用されています。
--medvramオプションがある場合はVRAM使用量は7.5GB程度となり、搭載量の12GB以内に収まります。
| Batch count | Batch Size | 生成時間 | 生成時間(--medvram あり) |
|---|---|---|---|
| 16 | 1 | 2分24秒 | 3分20秒 |
| 8 | 2 | 2分08秒 | 2分41秒 |
| 4 | 4 | 2分06秒 | 2分29秒 |
生成結果例
VRAM使用量は10G程度でGPUのVRAM内に収まっています。RTX 4070 TiよりVRAM使用量が少ない状況はよくわかりません。
--medvramオプションがある場合はVRAM使用量は11GB程度となります。
SDXLの場合は、GeForce RTX 4090のほうが4倍程度速い結果になりました。Batch size の値を増やした場合、
RTX 4070Tiでは生成速度は逆に遅くなってしまいます。RTX 4090では10~12%程度の速度向上になりました。
--medvram オプションを入れると、 RTX 4090とRTX 4070 Tiとの速度差は、2倍程度になります。
--medvramなしの4090と--medvramありの4070tiでは3倍弱の速度差になります。
Batch size の値を増やした場合、RTX 4070Tiでは2の場合はわずかに生成速度が上がりますが、4になると逆に遅くなってしまいます。
RTX 4090では20~25%程度の速度向上になりました。
Stable Diffusion 1.5の場合は GeForce RTX 4070 Tiでも短時間で生成できるため、 GeForce RTX 4090 が2倍高速に生成できるメリットはそれほど感じられませんが、
SDXLの場合は、GeForce RTX 4070 Tiでも生成時間がかかるため、GeForce RTX 4090 が3~4倍高速に生成できるメリットは大きいです。