OpenAI社の画像生成AI「DALL·E 2」の使い方とChatGPTで画像生成する方法

チャットAIツール「ChatGPT」を開発するOpenAI社が開発する画像生成AI「DALL·E 2(ダリ ツー)」の利用方法や無料で使う方法、ChatGPTを使って画像生成を行う方法について解説します。

「DALL·E 2」はOpenAI開発の画像生成AI

「DALL·E 2(ダリ ツー)」は入力されたテキストデータをもとに画像を生成するAIツールであり、ChatGPTを開発するOpenAIが2022年4月に発表されました。スペインの有名画家「サルバトール・ダリ」とピクサーのアニメーション「WALL-E(ウォーリー)」が名称の由来となっています。

「DALL·E 2」の3つの特徴(誰でも・簡単・高いクリエイティビティ)

世の中にはさまざまな画像生成AIツールがありますが、その中でも特に有名なのは「Midjourney」と「Stable Diffusion」です。これらと「DALL·E 2」を比較すると大きく異なる点が3つあります。

特徴比較①誰でも簡単に始めることが出来る

「DALL·E 2」はサイトにアクセスするだけで誰でも簡単に画像生成を行うことができます。一方、「Midjourney」や「Stable Diffusion」などはシステムを動作可能な環境を構築するにも知識が必要であり、誰でも簡単に利用できるものではありません。

特徴比較②複雑なパラメータがなく簡単操作

「Midjourney」や「Stable Diffusion」には画像生成時に調整できる様々なパラメータがあります。その一部を紹介すると次のようなものがあります。

  • Guidance Scale(ガイダンススケール)
  • Steps(ステップ数)
  • Sampler(サンプラー)
  • Seed(シード)
  • Negative Prompt(ネガティブプロンプト)

これらは非常に細かい調整が可能となる一方、それぞれのパラメータの意味を理解するだけでも一苦労ですし、どのパラメータを動かすとどのような変化が起きるかは非常に複雑です。

一方、「DALL·E 2」では命令テキストのみで画像が生成されるため初心者でも簡単に画像生成をすることができます。

特徴比較③シンプル操作ながら高いクリエイティビティを発揮

シンプルな操作性が魅力の「DALL·E 2」ですが、クオリティの高い(=自然な)画像を生成できることも大きな特徴です。他の画像生成AIでは簡単なプロンプトのみでパラメータの調整などを怠ると、不自然な(自然界では起こり得ないことや画像の歪みなど)画像生成がされてしまうことも多いですが、「DALL·E 2」は非常にシンプルにも関わらず高いクオリティの画像を生成できます。

「DALL·E 2」の使い方

1. 「DALL·E 2」のサイトにアクセスする

2. ChatGPTを既に利用している人はアカウント作成済みのため「Log in」をクリック、ChatGPTもDALL·E 2も使ったことがない人は「Sing up」よりアカウント作成をした上でログイン

3.ログイン後の画面において「DALL·E」をクリック

4.生成したい画像をテキストで入力し「Generate」をクリック

実際にDALL·E 2を使ってみました!

実際にDALL·E 2を使ってどのような画像を生成することができたかを見ていきましょう。一番最初にこのようなテキストで生成を行いました。

Chimpanzee operating a smartphone with headphones on
(日本語訳:ヘッドホンを装着してスマートフォンを操作するチンパンジー)

非常に「リアルなチンパンジー」で画像が生成されました。入力されたテキストをしっかり理解して画像が生成されていると思います。ここで、更に次のようなテキストに変更して再度画像生成を行いました。

Andy Warhol's drawing of a chimpanzee wearing headphones and operating a smartphone.
(日本語訳:アンディ・ウォーホルが描いた、ヘッドホンを装着してスマートフォンを操作するチンパンジーの絵。)

「実写ではないアート作品としてのチンパンジー」を描くことに成功しました。アンディーウォーホルの画風かと言われると多少疑問が残る出力結果ではありますが(カラフルな作品を期待していた)最初のテキストと比較してしっかりと異なる、意図に即した画像出力に変化しました。更に次のようなテキストでも出力を行いました。

3D generated chimpanzee wearing headphones and operating a smartphone
(日本語訳:ヘッドホンを装着し、スマートフォンを操作するチンパンジーを3Dで生成。)

「3Dアニメのキャラクターのようなチンパンジー」がしっかりと画像生成されました。

このように、入力テキストを少し変えるだけでも様々な画像を生成することができます。

「DALL·E 2」の利用料金と無料で使う方法

「DALL·E 2」は「クレジット制」を採用しており、1回の画像生成にクレジットを1個消費します。クレジットは115クレジットが15ドルで販売されています。

無料で使いたいという場合は登録時にもらえる50クレジットを利用すると良いでしょう。また、クレジットを消費しきってしまった場合も、毎月15クレジットが付与される仕組みになっています。登録日から1ヶ月後に付与されますので、そのタイミングで再びログインして使用することができます。

「DALL·E 2」を利用する際の注意点

生成するためのテキスト入力(プロンプト)は英語で

ChatGPTは日本語での入力に対しても完璧な日本語で返答をしますが、「DALL·E 2」はそうではありません。日本語でのプロンプト入力を受け付けてはいますが、まったく関連のない画像が生成されることがほとんどです。

英語が苦手な方はGoogle翻訳やDeepLといった翻訳サイトを使って入力したい文章を英語で作成して利用すると良いでしょう。

クレジットの意図しない過剰消費に注意

画像を生成するたびにクレジットを消費しますので、プロンプト(入力文)の細かな調整で必要以上にクレジットを消費しないように注意が必要です。また、「DALL·E 2」では生成した画像に、更に別の生成した画像を合成する機能を利用可能ですが、こちらについても合成のたびにクレジットを消費するので注意が必要です。

使用できない言葉も多いので注意。知的財産権の侵害など

次のような言葉は使用することができないので注意が必要です。

  • 肖像権のある著名人の名前(芸能人やハリウッドスターなど)
  • 著作権や商標権侵害の可能性があるロゴ(有名ブランドや企業のロゴなど)
  • 過激な表現(暴力表現や性的表現など)

ChatGPTで「DALL·E 2」の画像出力を行えるようになるのはまだ先

ChatGPTでは現在、出力はテキストのみに限られています。今後画像での出力にも対応予定とのことであり、その際には「DALL·E 2」の技術を用いた画像生成が行われることになると想定されますが、現時点では未対応となっています。