DALL-E

初版 2021年1月5日

DALL-E
OpenAIのラボウェブサイトで生成されたDALL-E 2画像に示される透かし
テキストプロンプト"Teddy bears working on new AI research underwater with 1990s technology"（1990年代のテクノロジーを使用して水中で新しいAI研究に取り組むテディベア）に基づいてDALL-E 2で生成された画像
作者	OpenAI
初版	2021年1月5日
種別	Transformer 言語モデル
公式サイト	openai.com/blog/dall-e/
テンプレートを表示

研究手法

機械学習
基盤モデル教師あり学習教師なし学習ディープラーニングニューラルネットワーク回帰型 GPT ConvNet Transformer 論理学習機械（英語版、フランス語版）

歴史とできごと

歴史
進化（英語版）人工知能時代（英語版） AIの冬 AIブーム年表（英語版）
できごと
Logic Theorist (1955) パーセプトロン (1958) General Problem Solver (1959) Prolog (1972) ディープ・ブルー対ガルリ・カスパロフ (1996-1997) AlphaGo対李世ドル (2016)

DALL-E（ダリ、DALL·E）は、「prompts」と呼ばれる自然言語の記述からデジタル画像（人工知能アート）を生成する、OpenAIにより開発された深層学習モデル。

名称は、ピクサー映画『ウォーリー』の主人公である同名のロボットと、スペインの画家であるサルバドール・ダリのかばん語である^[1]^[2]。

2021年1月のOpenAI公式ブログの投稿により明らかにされ、GPT-3の画像生成のために変更されたバージョンを使用した^[2]。2022年4月にはバージョンアップ版のDALL-E 2（ダリツー^[3]）が発表された。これは「コンセプト、アトリビュート、スタイルを組み合わせることができる」より高い解像度でよりリアルな画像を生成するように設計された後継バージョン^[4]である。

OpenAIはいずれのモデルのソースコードも公開していない。2022年7月20日にDALL-E 2はベータ段階に入り、100万人の待機リストのメンバーに招待が送られた^[5]。ユーザは、毎月一定数の画像を無料で生成でき、有料でさらに行うことができる^[6]。以前は、倫理と安全性に関する懸念から研究プレビューのために事前選択されたユーザにアクセスが制限されていた^[7]^[8]。2022年9月28日に、DALL-E 2は誰でも利用可能になり、待機リストの要件は撤廃された^[9]。

2022年11月初旬、OpenAIはDALL-E 2をAPIとしてリリースし、開発者はモデルを自身のアプリケーションに統合できるようになった。マイクロソフトはBingとMicrosoft Edgeに含まれるDesignerアプリとImage CreatorツールにおけるDALL-E 2の実装を発表した。CALAとMixtilesは、DALL-E 2 APIを早期に採用した企業の1つである^[10]。APIは画像ごとのコストで動作し、価格は画像の解像度により異なる。OpenAIのエンタープライズチームと協力している企業は、ボリュームによるディスカウントを使うことができる^[11]。

技術

GPTモデルは最初、2018年にOpenAIによりTransformerアーキテクチャを使用して開発された^[12]。GPTは、2019年にスケールアップされGPT-2が生成された^[13]。2020年にはさらにスケールアップされ、1750億のパラメータを有するGPT-3が作成された^[14]^[2]^[15]。DALL-EのモデルはGPT-3のマルチモーダルの実装であり^[16]、120億のパラメータを有し、インターネットから取得したテキストと画像のペアで訓練され、「テキストとピクセルを交換する」^[2]^[17]。DALL-E 2はDALL-Eよりも少ない35億のパラメータを使用する^[18]。

DALL-Eは、CLIP (Contrastive Language-Image Pre-training)^[17]と合わせて開発され、一般に公開された。CLIPは、インターネットからスクレイピングされたテキストキャプションつきの画像4億組で訓練されたゼロショット学習（英語版）に基づく分離モデルである^[2]^[17]^[19]。その役割は、データセットからランダムに選択された32,768個のキャプションのリスト（そのうち1つが正解）からどのキャプションが画像に最も適しているかを予測することにより、DALL-Eの出力を「理解しランクを付ける」ことである。このモデルは、最も適した出力を選択するために、DALL-Eにより生成された画像の大きい初期リストをフィルタリングするために使用される^[1]^[17]。

DALL-E 2は、CLIP画像埋め込みを条件とする拡散モデルを使用し、これは、推論中に以前のモデルによるCLIPテキスト埋め込みから生成される^[18]。

能力

写真のようなリアルな画像、絵画、絵文字など複数のスタイルの画像を生成できる^[2]。画像内のオブジェクトを「操作および再配置」することができ^[2]、明示的な指示なしにデザイン要素を新たな構成に正しく配置できる。特定のプロンプトがなくても適切な詳細を推測するために「空白を埋める」能力を示し、例えば一般的にお祝いに関連するプロンプトにクリスマスの画像を追加したり^[20]、画像に、言及されていない配置に基づく影を付けたりする^[21]。

さまざまな視点からさまざまな任意の記述の画像を生成できるが^[22]、ほとんど失敗しない^[1]。ジョージア工科大学のSchool of Interactive Computingの准教授であるMark Riedlは、DALL-Eが概念（人間の創造性の重要な要素として説明される）を融合できることを見出している^[23]^[24]。

レーヴン漸進的マトリックス（人間の知性を測定するために行われることが多い視覚的なテスト）を解決するのに十分な視覚的推論能力を有する^[25]^[26]。

DALL-E 2により生成された『真珠の耳飾りの少女』の2つのバリエーション

既存の画像が与えられると、DALL-E 2は元の画像に基づいて個々の出力として画像の「バリエーション」を生成し、画像を編集して変更または拡張することができる。DALL-E 2の「inpainting」と「outpainting」では、画像からのコンテクストを使用し、所与のプロンプトに従い元の画像と一致する媒体を使用して欠けている領域を埋める。これは例えば新しい被写体を画像に挿入したり、元の境界線を超えて画像を拡張したりするために使用できる^[27]。OpenAIによると、「Outpaintingは、元の画像のコンテクストを維持するために影、反射、テクスチャなど、画像の既存の視覚要素を考慮する」^[28]

倫理的懸念

→詳細は「人工知能アート § 問題・議論」を参照

アルゴリズムバイアス

→詳細は「アルゴリズムバイアス」を参照

DALL-E 2が公開データセットに依存していることは、その結果に影響を与え、ジェンダーに言及していない要求に対して女性よりも男性を多く生成する（ジェンダーバイアス）など、場合によってはアルゴリズムバイアスにつながる^[29]。DALL-E 2の訓練データは、暴力的で性的な画像を除去するためにフィルタリングされているが、生成される女性の頻度が減るなど、場合によってはバイアスが増加することが分かっている^[30]。OpenAIは、これは訓練データにおいて女性の方が性的な扱いが多く、フィルタが結果に影響を与えたと仮説を立てている^[30]。2022年9月、OpenAIはザ・ヴァージにDALL-Eが結果のバイアスに対処するためにフレーズを見えない形でユーザプロンプトに挿入することを確認した。例えば「black man」（黒人）や「Asian woman」（アジア人女性）はジェンダーや人種を特定していないプロンプトに挿入される^[31]。

ディープフェイク

→詳細は「ディープフェイク」を参照

DALL-E 2及び同様の画像生成モデルに関する懸念は、ディープフェイクやその他の形式の誤報の伝播に使用される可能性がある点である^[32]^[33]。これを軽減するために、公人が関わるプロンプトや顔を含むアップロードを拒絶している^[34]。好ましくないコンテンツを含む可能性のあるプロンプトはブロックされ、アップロードされた画像が分析されて攻撃的な内容が検出される^[35]。プロンプトに基づくフィルタリングの欠点は、同様の出力を行う代替のフレーズを使用して簡単に迂回できることである。例えば、「blood」（血）という単語はフィルタリングされるが、「ketchup」（ケチャップ）や「red liquid」（赤い液体）はフィルタリングされない^[36]^[35]。

人間の技術的失業

→「技術的失業」も参照

DALL-E 2や同様のモデルに関するもう1つの懸念は、精度や人気のために、アーティスト、写真家、グラフィックデザイナーが技術的に失業する可能性があることである^[37]^[38]。

著作権侵害と模倣

→「人工知能アート § 著作権」も参照

技術的限界

DALL-E 2の言語理解には限界がある。「A yellow book and a red vase」（黄色い本と赤い花瓶）と「A red book and a yellow vase」（赤い本と黄色い花瓶）や「A panda making latte art」（ラテアートを作るパンダ）と「Latte art of a panda」（パンダのラテアート）を区別できない場合がある^[39]。「a horse riding an astronaut」（宇宙飛行士に乗った馬）というプロンプトが提示されると、馬に乗った宇宙飛行士の画像を生成する^[40]。また、さまざまな状況で正しい画像を生成できない。3つ以上のオブジェクト、否定、数字、および接続された文を要求すると、間違う可能性があり、間違ったオブジェクトにオブジェクトの特徴が現れる場合がある^[22]。限界には、テクストの処理（読みやすい文であるが、ほぼ夢のようなちんぷんかんぷんな文）や天文学や医療画像などの科学情報に対処するためには容量が限られていることがある^[41]。

技術

能力