GPT4のDALL-E3は何故リクエストが上手くいかないのか【初心者向け】

AI_活用術
この記事は約7分で読めます。

DALL-E3機能で「なんかうまくいかないな」と思ったことはありませんか。

こちらの記事ではDALL-E3の初心者向けに、基本的な構造と小さい疑問の解消に向けた解説をしていきます。

なお、構造解説にはわかりやすくする為にGPTに直接聞くという方法をとっています。

関連記事:DALL-E3を実際に動かしてみる実験→

GPT4とDALL-E3はどういう関係?

そもそもGPT4から選べるDALL-E3はそれぞれどういった位置づけなのでしょうか。

DALL-Eはストア上ではDALL-Eの項目に所属しており、おそらくこのTOP表示は崩れることがないでしょう。

つまり、位置づけ上はGPTs(カスタムされたGPT)という様相で、公式発信の物であるというのが他のGPTsとの違いとなります。

そして実は名乗りはDALL-Eですが、中身はGPTなのです。

USER

このセッションはGPTが窓口となりDALLEに指令を出すという形で成り立っていますか? 構造理解に齟齬があれば訂正してください

DALL-E

はい、その通りです。このセッションでは、私(GPT)が窓口となり、ユーザーの指示に基づいてDALL·Eに画像生成の指令を出すという形で運用されています。ユーザーからのリクエストを受け、その内容を基にしてDALL·Eに適切な画像生成の指示を出します。何か画像を生成してほしい内容があれば、お気軽にお伝えください。

つまり。

ユーザー(命令)→

GPT(窓口・命令変換)→

DALL-E3(生成・返送)

というDALL-E3との仲立ちしていくれているのが【DALL-E】という名前のGPTsなのです。

この為、質問であればGPTが応答を行い、このように質問にも答えが返ってくるのです。

GPTとの会話はDALL-Eに反映されるのか?

GPTが窓口ということは、GPTとの会話内容を半壊死してくれると期待してしまいます。

例えば、絵画のような出力はどうしたらいいかと相談してから、実際に出力をお願いするなどの場合です。

しかし、実際はDALL-E3への命令は会話セッションとは独立して展開されています。

下記の質問は会話の連続性を考慮するかどうかの質問です。

USER

GPTが窓口ということは セッション内の会話は考慮されますか 例えば横長の画像を連続してリクエストしていたとします、次のリクエストで画像サイズを指定しなかったらどの様な挙動になると考えられますか

DALL-E

セッション内での会話は考慮されますが、画像のサイズに関しては、ユーザーが明示的に指定しない限り、デフォルトのサイズ(1024x1024)で画像を生成することになります。したがって、もし前回のリクエストで横長の画像を要求していたとしても、次のリクエストでサイズについて特に言及がなければ、自動的にデフォルトサイズで画像を生成します。サイズ指定が必要な場合は、その都度リクエストに含めていただく必要があります。

つまり、通常のGPTとの会話では、前の会話の内容が考慮された回答が出力されるのが通例でしたが、DALL-Eの描画セッションにおいてはその命令はほぼ独立しているということが示唆されています。

USER

サイズ以外の会話内容は考慮されますか? 例えば連続して黒いロボットの画像をリクエストして次のリクエストではロボットの色の表記がない場合どの様な挙動になると考えられますか?

DALL-E

サイズ以外の会話内容も考慮されますが、各リクエストは独立して扱われることが一般的です。つまり、以前に黒いロボットの画像をリクエストしていたとしても、次のリクエストでロボットの色について具体的な指定がない場合、その色に関する情報は推測されず、デフォルトまたはランダムな色のロボットが生成される可能性が高いです。

各リクエストはできるだけ詳細に、必要な情報を含めていただくことをお勧めします。そうすることで、希望に沿った画像をより正確に生成することができます。

つまり、DALLーEの命令にはやはり前段階での会話内容は極めて反映されにくいことを述べています。

USER

つまりここでのGPTの役割は 一回の会話におけるクリエイティブなプロンプトの作成とDALLEへの依頼 他にはこの様な会話リクエストへの応答という理解で良いですか

DALL-E

はい、その理解で正確です。ここでのGPTの役割は、ユーザーからのリクエストに基づいてクリエイティブなプロンプトを作成し、それをDALL·Eに依頼すること、そしてユーザーの質問やリクエストに対して応答することです。各リクエストに対して最適な応答や画像を生成するために、ユーザーからの指示や情報をできるだけ正確に解釈し、それに応じて行動します。

GPTが仲介者として入っており、かつ実効プロンプトはGPTが独自に行っている。さらにGPTはGPTとしての役割をそれらとは独立して行う。

この役割の違いの理解をしておきましょう。

出力のクセと出力枚数

DALLーEにも出力のクセが存在しますので、それについても確認していきましょう。

USER

AIロボットをリクエストすると基本的に白いロボットの絵が描かれます この理由を詳細に推測してください

DALL-E

AIロボットに関するリクエストで基本的に白いロボットの画像が生成される現象には、いくつかの可能性が考えられます:

  1. 一般的なイメージとしての白色: 現代のデザインやテクノロジーにおいて、白は清潔さ、シンプルさ、先進技術を象徴する色とされることが多いです。特にテクノロジー製品では、Apple製品などの影響で白色が「ハイテク」を象徴する色として広く認識されています。そのため、AIロボットというテーマにおいても、無意識のうちに白色が選ばれる可能性があります。
  2. ビジュアルデータの影響: DALL·Eの学習データには、映画、テレビ番組、広告、イラストなど、多種多様なビジュアルコンテンツが含まれている可能性があります。これらのメディアにおいて白いロボットが頻繁に登場することが、DALL·Eが白いロボットの画像を生成する傾向に影響を与えているかもしれません。
  3. デフォルトまたはニュートラルな選択: プロンプトで特定の色が指定されていない場合、DALL·Eはデフォルトまたはニュートラルな選択をする傾向があります。白は比較的中立的で、他の要素に影響を与えにくい色であるため、特に色に関する指定がない場合に選ばれやすいのです。

これらの要因が組み合わさることで、AIロボットに関するリクエストにおいて、しばしば白いロボットの画像が生成される傾向になるのではないかと推測されます。

このように特定のリクエストに対して同じような生成しか行われない場合は、それらがベースとなって作られている可能性があるので、望みの出力が得られない場合はよりその項目に対して具体的な指示を出す必要があります。

さらに現在DALL-E3は絵の生成が一回につき1枚となっていますが、DALL-Eチャットだけは例外で2枚の生成が可能になっています。

USER

このDALL-EのGPTは他とは違い、画像生成枚数が通常の1枚ではなく2枚となっています。 これらは特別な設定で行われているのでしょうか

DALL-E

はい、このDALL·EのGPTには、画像生成に関して特別な設定が施されています。通常のDALL·Eでは1枚の画像が生成されるのが一般的ですが、このセッションではデフォルトで2枚の画像を生成するように設定されています。

この設定の目的は、ユーザーに複数の視覚的選択肢を提供することにあります。1つのプロンプトに基づいて2枚の異なる画像を生成することで、ユーザーはより多様な表現やスタイルの中から選ぶことができ、その結果、より満足のいく結果を得ることができる可能性が高まります。

このような設定は、ユーザー体験を豊かにするためにカスタマイズされており、特定の使用シナリオやユーザーの要求に応じて調整されることがあります。

この様にDALL-Eは特別な設定が入っているようです。

ちなみに内部的にこの特別な設定に働きかけるプロンプトを送っても、反映されることはありません。

2枚生成の内部的には【n:2】という命令が入っていますが、これも設定ではじいているようで他のGPTでは使えないようになっています。

GPTとDELL-E3の生成機能が入っているDALL-E GPTですが、このように他のGPTよりも特別で目的の分かりやすい物になっています。

ぜひ活用していきましょう。