AI企業のOpenAIが画像生成AIの「DALL-E 3」を2023年9月20日に発表しました。DALL-E 3は大規模言語モデル・GPTをベースにしたチャットボットAI・ChatGPTと統合されているのが特徴で、2023年10月にChatGPT PlusおよびEnterpriseの顧客に提供される予定です。

DALL·E 3

https://openai.com/dall-e-3

OpenAI’s new AI image generator pushes the limits in detail and prompt fidelity | Ars Technica

https://arstechnica.com/information-technology/2023/09/openai-announces-dall-e-3-a-next-gen-ai-image-generator-based-on-chatgpt/

「DALL-E」はOpenAIによって2021年に発表された画像生成AIで、「プロンプト」と呼ばれるテキスト入力に沿った内容の画像を出力することができます。DALL-Eの言語処理には、OpenAIの大規模言語モデルであるGPT-3のパラメータが使われています。

「バイクに乗るピカチュウ」「アボカドの椅子」など言葉から自動でイラストや写真を生成するAI「DALL・E」 - GIGAZINE



2022年にはDALL-Eの改良版である「DALL-E 2」が登場しました。このDALL-E 2はDALL-Eよりも高解像の画像を低遅延で生成でき、さらに写真の一部領域を指定して編集を行う「Inpainting」機能が追加されました。

入力した文字情報から画像を生み出す「DALL・E」の高解像度・低レイテンシ版「DALL・E 2」登場 - GIGAZINE



今回発表されたDALL-E 3もテキストから画像を生成するAIですが、GPTをベースに開発されるチャットボットAI・ChatGPTを基板として構築されているのが特徴。DALL-Eは有料プランであるChatGPT Plusの統合機能として提供され、ChatGPTに話しかける形で画像のプロンプトを入力することで、ChatGPTが画像を生成してくれるようになります。



OpenAIは「現行の画像生成AIはテキストから画像を生成する際に一部の単語や説明を無視する傾向があったため、ユーザーはプロンプトエンジニアリングを求められました。DALL-E 3は、提供されたテキストに正しく対応した画像を生成する能力が飛躍的に進歩しました」と述べています。

また、OpenAIはDALL-E3について、暴力的な内容や成人向けの内容、あるいは憎悪に満ちたコンテンツを生成する能力に制限をかけていると述べています。さらに、生存するアーティストの画風を求めるリクエストを拒否するように設計されており、クリエイターは専用のフォームから画像生成モデルのトレーニングから自分の画像をオプトアウトすることができるようになったとのこと。

OpenAIは、DALL-E 3で生成した画像例を入力したテキストとともに公開しています。

「セラピストの椅子に座り、中央に穴がぽっかり開いたアボカドが『自分の中が空っぽな気がする』とセラピストに語るイラスト。セラピストはスプーンで、メモを書いている」



「ライチをイメージした球形の椅子の写真。外側はでこぼこして白く、内側は豪華になっていて、背景はトロピカルな壁紙になっている」



「猫を優しく抱きしめる女の子を描いたペーパークラフトアート。女の子と猫は鉢植えの植物の中に座っていて、猫は満足そうに喉をならし、少女は微笑んでいる。手作りの紙の花や葉で彩られている」



「鮮やかな黄色のバナナの形をしたソファが居心地のいいリビングルームに置かれ、その曲線が大量のカラフルなクッションを支えている。木の床には模様入りのラグが折衷的な魅力を加えており、隅には窓から差し込む陽光に向かって伸びる鉢植えが置かれている」



「荘厳な王冠をかぶった小さなジャガイモの王たちが玉座に座り、ジャガイモの臣民とジャガイモの城で満たされた広大なジャガイモ王国を治めている」



「黒髪に銀色の筋を入れたアジア系中年女性が割れて砕け散り、割れた磁器の海の中に複雑に埋め込まれているように見える。磁器は、光沢と艶消しの青、緑、オレンジ、赤が調和したスプラッターペイントパターンで輝き、動きと静けさが超現実的に並列する中で彼女のダンスを捉えている。彼女の肌色は磁器と同じ淡い色合いで、その姿に神秘的な雰囲気を添えている」



「星雲の爆発のように描かれた、バスケットボール選手のダンクを表現した油絵」というテキストで、DALL-E 2(右)とDALL-E 3(左)で生成した画像が以下。



DALL-E 3は記事作成時点でリサーチプレビューの状態で、2023年10月初旬にChatGPT PlusおよびEnterpriseの顧客に提供される予定で、2023年秋の後半にはLabs Open AIでも公開されるとのこと。また、DALL-E 2と同様に、DALL-E 3で生成した画像は顧客が使用するものであり、転載・販売・商品化にOpenAIの許可は必要ないとOpenAIは定めています。