やること
はじめまして、Yoshimotoです ( ˘ω ˘ *)ウッス
今月上旬、OpenAIは画像生成のAPI「DALL-E 2」のアップデート版である「DALL-E 3」を公開しました。同じく、ChatGPTアプリに画像生成機能(DALL-E 3)が追加されました。
要するに、現状DALL-Eで画像生成するには、
- ChatGPTアプリ → ChatGPTモード
- ChatGPTアプリ → DALL-Eモード
- DALL-E 3 API
の3つの選択肢があることになります。それぞれ使ってみると、生成される画像の傾向が似ているような違うような…?
これらの違いを検証してみました。
ChatGPTアプリ → ChatGPTモード
まずはChatGPTアプリから普通のChatGPTモードを選択して「オフィスカジュアルを着ている男性」を生成してみます。(3回)
3回とも似たテイストの画像が出てきました。仕事できそうなアジア系のお兄さん・・・。かっこよくてスタイルいい人ばっかりですね笑。そして必ずポケットに手を突っ込んでいる。
ChatGPTアプリ → DALL-Eモード
ChatGPTアプリのDALL-Eモードで同じように生成すると、正方形で2枚ずつ出てくるようですがテイストはだいたい同じでした。
ChatGPTアプリのプロンプトを聞いてみる
最初に生成したスレッドで、正確にはどんなプロンプトをDALL-Eに投げたのか聞いてみました。
なるほど。「オフィスカジュアルを着ている男性」という指示を元に、英語でめっちゃ大げさな設定を加えてからDALL-Eに投げてくれていたみたいです。
この「設定盛り」はChatGPTモードもDALL-Eモードも同じような回答でした。
中間まとめ1
ここまでの検証で、ChatGPTアプリに関しては「ChatGPTモード」も「DALL-Eモード」も中身の挙動はほぼ同じだろうということが分かりました。違いは、「DALL-Eモード」は正方形で2枚出してくれることです。
DALL-E 3 API
次に、DALL-E 3のAPIを使用して画像を生成してみます。(3回)
2人並んだイラスト(カタログ?なんか見切れてる?)と、アプリ版に似た実写っぽいやつと、そして圧倒的イケおぢ。画風が安定しません。
ChatGPTアプリに原文ママを指示してみる
ChatGPTアプリで、「オフィスカジュアルを着ている男性」を「この日本語プロンプトのままで生成してください」と指示してみると(3回)
オフィスカジュアルではない、アニメ風の男性が出ました。ただのイケメンです…!念のためプロンプトを聞いて確認しましたが、たしかに原文ママで投げていました。
うーん。原文ママなのにアプリ版とAPI版で挙動が違うのはなぜ・・・?
ChatGPTアプリに英語短文を指示してみる
もしやと思い、ChatGPTアプリで、「オフィスカジュアルを着ている男性」を「英語に直訳したプロンプトで生成してください」と指示してみると(3回)
ちゃんとオフィスカジュアルおじさんが出ました。画角はいろいろで安定しないようです。使用したプロンプトを確認すると「A man wearing office casual attire」でした。この挙動はおそらくDALL-E 3 APIと同じなのかな?と思います。
2023年11月20日追記:たしかにAPIに「A man wearing office casual attire」を入れたら似た挙動でした。
中間まとめ2
ここまでの検証で、DALL-E 3 APIは入力プロンプトを盛ることはないが、おそらく英語に直訳してくれていることが推測できました。ChatGPTアプリで無理やり日本語のまま入力するとほとんど意味を拾ってくれないことがわかりました。
DALL-E 3 APIに盛りプロンプトを入れる
それならば、さっきアプリ版が勝手に盛ってくれた英文プロンプトをAPIに打ち込んだらどうなるのか?(3回)
“A man wearing office casual attire. He is standing confidently with a relaxed posture. The man is of Asian descent, with short black hair and a friendly expression. He is wearing a smart, fitted light blue shirt, partially unbuttoned at the top, with the sleeves rolled up to his elbows. He has on dark grey trousers and black leather shoes. The background is a modern office environment, with a hint of a desk and a computer in the background. The lighting is bright and professional.”
結構似てるかも!2枚目はちょっと日焼けしてムキムキになってるけど顔はほぼ一緒?うんうん、悪くない ( ˘ω ˘ *)
ぎゃーーー!後ろに人出てきた!!!~三(卍^o^)卍ドゥルル
といった感じで、日本語短文でAPIに投げたときと比べてかなり安定した(再現性がある)画像が生成できることがわかりました。
DALL-E 3 APIで金髪に変えてみる
じゃあ、詳細設定が盛られたプロンプトをちょっとだけ変えたら画像もちょっとだけ変わるんじゃないか?
そうだ、金髪にしよう。
さっきの盛りプロンプトの「with short black hair」を「with short gold hair」に変えました。
大成功!ええやん。チャラくなりました ( ˘ω ˘ *)
まとめ
今回の検証の結果を超絶まとめました。刮目してください。(クリックで拡大)
まず、アプリ版の「ChatGPTモード」と「DALL-Eモード」はほとんど違いがありません。アスペクト比と枚数が違うのみです。
次に、「言語」と「設定の詳細さ」について。
言語は英語である必要があります。日本語では意味を捉えられないようです。ただ、アプリ版もAPI版も内部で勝手に英訳してくれるので、無理やり日本語のままを指示しない限りは大丈夫そうです。
入力する設定は詳しいほど安定した(=再現性が高い)画像が出てきます。アプリ版は勝手に設定を盛ってくれますが(親切ぅ)、API版は盛ってくれません。また、細かく指示すれば髪の色だけ変えるような調整もできます。
参考になれば幸いです。現場からは以上です ( ˙σ-˙ )ホジホジ