バイオリンを弾く画像を生成するプロンプト - Stable Diffusion
バイオリンを弾く画像を生成するプロンプトの紹介です。
概要
AI画像生成の中でも難しめなバイオリンを弾くプロンプトを試します。
難しいポイント
- バイオリンを顎で挟む構図
- バイオリンの向きの正しさ
- バイオリンの大きさ (アニメ絵なので多少誇張して大きくなってもよい)
- バイオリンの弓の本数
- バイオリンの弓を握れるか
- バイオリンの弓を握る位置
- 全体としてかっこよく描画できるか
など、難しいポイントが多めの題材です。
SDXL
プロンプト
バイオリンを弾くプロンプトは次のプロンプトで対応できます。
または
playing instrument, violin
他の要素と組み合わせて、今回は以下のプロンプトで実行します。
Prompt
Prompt: best quality, highres, anime, anime style, playing violin, closed eyes,upper body
Negative prompt: worst quality, low quality
Settings: Steps: 20, Sampler: DPM++ 2M SDE Karras, CFG scale: 7, Size: 1024x1024
実行結果
SDXL v1.0
いい感じに出力されます。7割程度は弓が二本になったり、弓を握れていない、弓が途中で切れているなどしています。
Counterfeit XL v1.0
雰囲気的には良い感じですが、7割程度は弓が二本になったり、弓を握る位置が違っていたり、弓が途中で切れていたりしています。
Animagine XL v3.0
表情やポーズはとても良いです。弓もv1と比べると正確さが上がっていますが、うまく弓を持てていないケースがかなりあります。
Animagine XL v1.0
表情やポーズはとても良いのですが、バイオリンの位置が違ったり、バイオリンの向きが違ったりしており、9割は要修正です。
blue_pencil-XL v0.3.1
半分程度は正確に出力できているように見えます。ほかのモデルよりも正確性が高いです。
ポーズがややおとなしめなので、かっこよさがもっと出ているといいなと思います。
"dynamic pose"などのプロンプトを入れると変わるかもしれません。
BreakDomainXL v03d
7割程度はバイオリンの向きが違ったり、弓が二本になったり、弓を握る位置が違っていたり、弓が途中で切れていたりしています。
DreamShaper XL1.0 alpha2
7割程度はバイオリンの向きが違ったり、弓が二本になったり、弓を握る位置が違っていたり、弓が途中で切れていたりしています。
Kohaku-XL alpha 7
6割程度はバイオリンの向きが違ったり、弓が二本になったり、弓を握る位置が違っていたり、弓が途中で切れていたりしています。
ほかのモデルより若干正確度が高いように見えます。
SDXL_Niji v5.1
8割程度はバイオリンの向きが違ったり、弓が二本になったり、弓を握る位置が違っていたり、弓が途中で切れていたりしています。
SDVN7-NijiStyleXL v1.0
半分程度は正確に出力できているように見えます。ほかのモデルよりも正確性が高いです。
かっこいい感じのポーズで出力できています。
Nutmeg Mix v1.0
半分弱は正確に出力できているように見えます。ポーズはややおとなしめです。
Reproduction
6割ほどがバイオリンの向きが違ったり、弓が二本になったり、弓を握る位置が違っていたり、弓が途中で切れていたりしています。
ポーズは良い感じです。
Stable-Diffusion-XL-Anime
バイオリン演奏画像の正確さでの成功率は低めです。絵柄の振れ幅が大きいです。
SDXL Yamer's Anime Ultra Infinity v3
8割程度はバイオリンの向きが違ったり、弓が二本になったり、弓を握る位置が違っていたり、弓が途中で切れていたりしています。
参考:SDXL (Real)
アニメ絵のため、生成結果が悪いわけではなく、実写イメージの生成でも、同じような崩れは発生します。
Stable Diffusion 1.5
プロンプト
バイオリンを弾くプロンプトは次のプロンプトで対応できます。
他の要素と組み合わせて、今回は以下のプロンプトで実行します。
Prompt
Prompt: best best quality, highres, playing violin, closed eyes,upper body
Negative prompt: worst quality, low quality
Settings: Steps: 20, Sampler: DPM++ 2M SDE Karras, CFG scale: 7, Size: 512x512
実行結果
今回のプロンプトではモデルの違いがあまり出ないようです。
似たようなポーズが多くなり、絵の振れ幅は少ない印象です。
Counterfeit v3
MeinaMix v11
Hassaku v1.3
Blazing Drive v08
Aing Diffusion v9.2
MidJourney NijiJourney
MidJourney でも同じプロンプトで結果を確認します。
Prompt1
Prompt: best quality, highres, anime, anime style, playing violin, closed eyes,upper body --ar 1:1
Prompt2
Prompt: best quality, highres, anime, anime style, playing violin, closed eyes,upper body, chibi --ar 1:1
MidJourney
崩れなしで、出力されます。chibiありのプロンプトはやや怪しいです。
NijiJourney v6
崩れなしで、出力されます。
NijiJourney v5
崩れなしで、出力されます。
Bing Image Creator (DALL-E 3)
DELL-E 3を利用しているBing Image Creatorの結果です。
Prompt
Prompt: best quality, highres, anime, anime style, playing violin, closed eyes,upper body
こちらもほとんど崩れなく生成できています。
まとめ
現状、SDXLでも7割程度は修正が必要なイメージが生成されるため、一発出しはなかなか難しい印象です。
Midjourney/NijiJourney,BingImage Creator はほとんど崩れないため、性能の高さがわかる結果になりました。
著者
iPentecのメインデザイナー
Webページ、Webクリエイティブのデザインを担当。PhotoshopやIllustratorの作業もする。